2. 简述大数据分析的过程。
★考核知识点:大数据分析过程
参见讲稿章节: 1.5
附2.2.2:(考核知识点解释)
大数据分析的过程大致分为下面6个步骤:
(1)业务理解
最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将业务知识转化为数据析问题的定义和实现目标的初步计划上。
(2)数据理解
数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。
(3)数据准备
数据准备阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将是模型工具的输人值。这个阶段的任务有的能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。
(4)建模
在这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。有些技术可以解决一类相同的数据分析问题;有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。
(5)评估
在这个阶段,已经从数据分析的角度建立了一个高质量显示的模型。在最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分考虑。在这个阶段结束后,必须成一个数据分析结果使用的决定。
(6)部署
通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要以便于用记使用的方式重新组织和展现。根据需求,这个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据分析过程。在很多案例中,由客户而不是数据分析人员承担部署的工作。



