31.数据分析是大数据价值链中最终和最重要的阶段,其目的是挖掘数据中潜在的价值以提供相应的建议或决策。通过分析不同领域中的数据集可以使数据在不同层面发挥最大价值。
32.由于数据变成资源,成为有价值的东西,数据私有化和独占问题就是客观存在的,成为关注的焦点。数据产权界定问题日益突出,在数据权属确定的情况下,数据商品化将成为必然选择
33.多维数据指的是具有多个维度属性的数据变量。
34.标签云将关键词根据词频或其他规则进行排序,按照一定规律进行布局排列,用大小、颜色、字体等图形属性对关键词进行可视化。
35.数据缺失是大数据库中常见的问题,产生的原因也是多种多样的。主要包括机械原因和人为原因。
36.数据仓库是一个面向主题的(subject oriented)、集成的(integrate),相对稳定的(non-volatile)、反映历史变化(time variant)的数据集合,以用于支持管理决策过程。
正确答案:B
37.Python是一种面向对象的解释型计算机程序设计语言
38.预处理之后的数据需要被组织在数据库或数据仓库中。
39.用户可以容易地分析空间情况(道路网络内部)随时间的任何变化,或分析道路段上的交通状况的时间变化,或者利用历史数据跟踪单个车辆的即时状态。
40.地图属于数据可视化的一种
41.Twitter作为主流社交网络平台,不仅仅是一个海量公共数据集,它还是一个带有时间刻度的海量公共数据集——用于捕捉特定时间中(在一些情况下,也是在特定空间中)数百万人关于所有主题事项的想法。
正确答案:A
42.一个属性如果能由另一个或一组属性导出,则这个属性可能是冗余的。
43.基于大数据研究个体或群体行为,发现活动中蕴含的空间认知规律及空间行为和交互模式,建立以人为本的地理信息服务,进而支持个体或群体时空行为决策。
44.有些冗余可以被相关分析检测到。
45.R语言是闭源的
46.弹性是指有容错的机制,若一个RDD分片去失,Spark可以根据粗粒度的日志数据更新记录的信息重构它。
正确答案:B
47.空间视图提供了交通堵塞的概览
48.数据流要表现出流数据的特征,反映的是系统中流动的数据;
49.规则性分析(Prescriptive Analysis)用于解决决策制定和提高分析效率
50.R是一种开源编程语言和软件环境,用于数据挖掘、数据分析和可视化。
南开22秋学期《大数据导论》在线作业[答案]历年参考题目如下:
《大数据导论》19秋期末考核-0001
一、单选题 (共 10 道试题,共 20 分)
1.以下不是数据仓库基本特征的是()
A.数据仓库的数据是相对稳定的
B.数据仓库的数据是反映历史变化的
C.数据仓库是面向事务的
D.数据仓库是面向主题的
2.()是Microsoft Office的核心组件
A.WORD
B.SQL
C.PPT
D.EXCEL
3.数据清洗的方法不包括
A.重复数据记录处理
B.缺失值处理
C.噪声数据清除
D.一致性检查
4.数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段( )。
A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段
5.下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画()
A.network
B.ggplot2
C.ggmaps
D.animation
6.下列不属于Google云计算平台技术架构的是()
A.结构化数据表BigTable
B.弹性云计算EC2
C.并行数据处理MapReduce
D.分布式锁Chubby
7.大数据的最显著特征是() 。
A.数据规模大
B.数据类型多样
C.数据处理速度快
D.数据价值密度高
8.IaaS是()的简称
A.软件即服务
B.硬件即服务
C.平台即服务
D.基础设施即服务
9.基础设施即服务的英文简称是
A.SaaS
B.PaaS
C.IaaS
10.下列哪个工具常用来开发移动友好地交互地图()
A.Visual.ly
B.Leaflet
C.Gephi
D.BPizza Pie Charts
二、多选题 (共 10 道试题,共 20 分)
11.数据归约(Data Reduction)主要有()
A.维度规约
B.离散化概念分层
C.样本规约
D.数据聚集
12.以下可以用于数据可视化的是()。
A.Weka
B.R语言
C.RapidMiner
D.Excel
13.医疗大数据特点:除了包含了大数据4个“V” 的特点之外还有()
A.时效性
B.多态性
C.冗余性
D.不完整性
14.大数据存储的特点与挑战有()
A.成本问题
B.延迟问题
C.容量问题
D.安全问题
15.大数据智能感知层:主要包括()及软硬件资源接入系统
A.网络通信体系
B.智能识别体系
C.数据传感体系
D.传感适配体系
16.数据预处理的过程主要是
A.数据集成
B.数据规约
C.数据清洗
D.数据变换
17.交通数据处理包括以下几个步骤()
A.数据聚类
B.数据组织
C.数据清洗
D.数据映射
18.数据工厂包括
A.超强云安全
B.超大规模讲分布式架构
C.新一代智能自动化运维
D.低能耗数据中心
19.可视化工具包括()
A.ppt
B.Google Chart
C.Gephi
D.Excel
20.去除噪声使得数据光滑的技术主要有:
A.离群点分析
B.回归
C.分箱
三、判断题 (共 15 道试题,共 30 分)
21.在未来掘金社交数据的道路上,一方面要为用户提供更加精准便捷的良好服务,另一方面也要注重对用户隐私的保护。只有符合用户需求和用户安全的商业利益,才能成为可持续的商业利益。
22.每个簇的质心(centroid)是该簇中所有数据对象的均值。
23.数据存储要表现出静态数据的特征,反映的是系统中静止的数据。
24.不同类型的大数据可以揭示一个区域或城市的活动以及人口分布状态( )
25.Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB的数据,并且是高速实时数据流;或者是从小数据开始,但数据每年增长速率至少为60%。
26.未来考验零售企业的是如何挖掘消费者需求
27.减少已分配但未使用的存储容量的浪费,在分配存储空间时,系统按需分配存储空间。
28.数据存储是数据流在加工过程中产生的临时文件或加工过程中需要查找的信息。
29.Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。
30.FP算法比Apriori算法慢
31.轨迹数据包含空间和时间属性,并且通常规模巨大且维度高
32.Apriori算法扫描数据库的次数等于最大频繁项集的项数。



