南开22秋学期《大数据开发技术（二）》在线作业[答案]

作者：奥鹏作业答案字体：[增加减小] 来源：南开在线时间：2022-11-22 07:54

22秋学期（高起本1709-2103、全层次2109-2103）《大数据开发技术（二）》在线作业-00003 试卷总分:100 得分:100 一、单选题 (共 25 道试题,共 50 分) 1.以下算法中属于聚类算法的是（） A.KNN算法 B.逻辑回

南开22秋学期《大数据开发技术（二）》在线作业

正确答案:A

22秋学期（高起本1709-2103、全层次2109-2103）《大数据开发技术（二）》在线作业-00003

正确答案:C

试卷总分:100 得分:100

一、单选题 (共 25 道试题,共 50 分)

1.以下算法中属于聚类算法的是（）

A.KNN算法

B.逻辑回归

C.随机森林

D.Kmeans

正确答案:D

正确答案:C

2.Spark GraphX中类Graph的reverse方法可以（）

A.反转图中所有边的方向

B.按照设定条件取出子图

C.取两个图的公共顶点和边作为新图，并保持前一个图顶点与边的属性

D.合并边相同的属性

正确答案:D

3.GraphX中（）是提供顶点的各种操作方法的对象

A.RDD[Edge]

正确答案:D

B.EdgeRDD

正确答案:A

正确答案:C

C.RDD[(VertexId,VD)]

正确答案:A

D.VertexRDD

正确答案:B

4.Spark Streming中DStream的每个RDD都是由（）分割开来的数据集

正确答案:C

A.分区

B.一小段时间

C.数据量

D.随机

正确答案:D

5.请问RDD的（）操作作用于K-V类型的RDD上，返回指定K的所有V值

正确答案:C

A.search

B.find

C.findByKey

正确答案:C

D.lookup

正确答案:D

6.GraphX中（）方法可以查询边信息

A.numVertices

B.numEdges

正确答案:B

C.vertices

D.edges

正确答案:D

7.Scala源代码被编译成（）字节码，所以它可以运行于JVM之上

A.Spark

B.Scala

C.Java

D.JDK

正确答案:D

8.Scala中重写一个非抽象方法必须使用（）修饰符。

A.extends

正确答案:C

B.override

正确答案:C

C.extend

D.overrides

正确答案:A

9.Graph类中如果要直接通过边数据文件创建图，要求数据按空格分隔，应该用（）方法

A.Graph(vertices,edges, defaultVertexAttr)

正确答案:C

正确答案:D

B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)

正确答案:B

C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)

正确答案:C

正确答案:A

D.GraphLoader.edgeListFile(sc,filename)

正确答案:A

正确答案:B

10.Scala列表方法中通过给定的方法将所有元素重新计算的方法是（）

A.filter

B.foreach

C.map

D.mkString

正确答案:C

11.Mllib中线性会馆算法中的参数stepSize表示（）

A.要运行的迭代次数

B.梯度下降的步长

C.是否给数据加干扰特征或者偏差特征

D.Lasso 和ridge 的正规化参数

正确答案:A

12.Scala列表方法中丢弃前n个元素，并返回新列表的方法是（）

A.drop

正确答案:D

B.head

C.filter

正确答案:D

D.init

正确答案:B

13.以下算法中属于无监督学习算法的是（）

A.KNN算法

B.逻辑回归

C.随机森林

D.Kmeans

14.var a=10; do{ a+=1; }while(a<20) 共循环了（）次

正确答案:D

A.9

B.10

C.11

D.12

正确答案:B

正确答案:D

15.Scala中如果函数无返回值，则函数返回类型为（）

A.NULL

B.Void

C.Nothing

正确答案:B

D.Unit

正确答案:A

16.var a=10; while(a<20){ a+=1; } 共循环了（）次

A.9

B.10

C.11

D.12

17.递归函数意味着函数可以调用它（）

A.其他函数

B.主函数

C.子函数

D.自身

正确答案:D

21.Scala函数组合器可以接收一个可以处理嵌套列表的函数，然后把返回结果连接起来的方法是（）

A.map

B.foreach

C.flatten

D.flatmap

正确答案:A

正确答案:D

19.Spark中DataFrame的（）方法是进行排序查询

正确答案:D

A.order by

正确答案:B

B.group by

C.select by

D.sort by

正确答案:C

20.Spark Streming中（）函数可以对统计DStream中每个RDD包含的元素的个数，得到一个新的DStream

正确答案:C

A.count

B.union

C.length

D.reduce

正确答案:A

21.Spark Streming中（）函数可以对源DStream中的每一个元素应用func方法进行计算，如果func函数返回结果为true，则保留该元素，否则丢弃该元素，返回一个新的Dstream

正确答案:A

A.map

B.flatMap

C.filter

D.union

正确答案:A

22.（）是AMPLab发布的一个R开发包，使得R摆脱单机运行的命运，可以作为Spark的Job运行在集群上

A.SparkR

B.BlinkDB

正确答案:D

C.GraphX

D.Mllib

正确答案:A

23.Graph类中如果根据边数据创建图，数据需要转换成RDD[Edge[ED]类型，应该用（）方法

正确答案:D

A.Graph(vertices,edges, defaultVertexAttr)

B.Graph.fromEdges(RDD[Edge[ED]], defaultValue)

C.Graph.fromEdgeTuples(rawEdges: RDD[(VertexId, VertexId)], defaultValue,)

D.GraphLoader.edgeListFile(sc,filename)

24.Scala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是（）

A.filter

B.flatten

C.grouby

D.flatmap

25.以下哪个函数可以求两个RDD交集（）

正确答案:C

A.union

B.substract

C.intersection

D.cartesian

正确答案:D

南开22秋学期《大数据开发技术（二）》在线作业多选题答案

正确答案:A

二、多选题 (共 10 道试题,共 20 分)

26.Spark Streaming能够处理来自（）的数据

A.Kafka

B.Flume

C.Twitter

D.ZeroMQ

正确答案:D

27.Scala系统支持（）作为对象成员

A.通用类

B.内部类

C.抽象类

D.复合类

正确答案:B

28.Scala中可以用（）方法来连接两个或多个列表

A.::

B.#:::

C.List.:::()

D.List.concat()

正确答案:A

29.Scala中构造列表的两个基本单位是（）

A.Nil

B.Nill

C.::

D.List

正确答案:D

30.Spark创建DataFrame对象方式有（）

正确答案:D

A.结构化数据文件

B.外部数据库

C.RDD

D.Hive中的表

正确答案:A

31.Spark的RDD持久化操作有()方式

正确答案:A

A.cache

B.presist

C.storage

D.long

正确答案:B

32.TF-IDF中TF指的是（）

正确答案:C

A.词频

B.词在文档中出现的次数

C.逆文档概率

D.词在文档集中出现的概率

正确答案:A

E.词在文档集中出现的概率

33.MapReudce不适合（）任务

正确答案:B

A.大数据计算

B.迭代

C.交互式

D.离线分析

正确答案:A

34.Spark支持的文件格式包括（）

A.文本文件

B.JSON

C.CSV

D.SequenceFile

正确答案:D

35.Spark Streaming的特点有（）

A.单极性

B.可伸缩

C.高吞吐量

D.容错能力强

正确答案:C

三、判断题 (共 15 道试题,共 30 分)

36.RDD的sortBy排序默认是升序

正确答案:C

37.RDD的flatMap操作是将函数应用于RDD 之中的每一个元素，将返回的迭代器(数组、列表等)中的所有元素构成新的RDD 。

正确答案:D

38.Scala中Map的isEmpty函数在Map为空时返回false

39.Spark中DataFrame 的查询操作也是一个懒操作，仅仅生成一个查询计划，只有触发Action 操作才会进行计算并返回查询结果。

正确答案:A

40.RDD中的collect 函数是一个行动操作，把RDD 所有元素转换成数组并返回到Driver 端，适用于大数据处理后的返回。

正确答案:C

41.RDD是一个可读写的数据结构

正确答案:B

42.RDD中zip操作要求两个RDD的partition数量以及元素数量都相同

正确答案:D

43.RDD中join操作最后只返回两个RDD 都存在的键的连接结果。

正确答案:B

44.Spark取代Hadoop仅仅是取代MapReduce这种计算框架，Spark可以取代HDFS吗

正确答案:D

45.SparkContext类中makeRDD方法不可将单机数据创建为分布式RDD

正确答案:A

46.Scala是Scalable Language的简写，是一门多范式的编程语言，设计初衷是不包括面向对象编程的特性。

47.PairRDD中groupBy（func）func返回key，传入的RDD的各个元素根据这个key进行分组。

正确答案:D

48.PairRDD中mapValues是针对键值对（Key，Value）类型的数据中的key和Value进行Map操作

正确答案:C

49.MLlib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道API。

50.RDD的转换操作是用于触发转换操作的操作，这个时候才会真正开始进行计算。

正确答案:B

南开22秋学期《大数据开发技术（二）》在线作业国开电大历年参考题目如下：

《大数据开发技术（二）》20春期末考核-00001

试卷总分:100 得分:70

一、单选题 (共 15 道试题,共 30 分)

1.GraphX中（）方法可以查询顶点信息

A.numVertices

B.numEdges

C.vertices

D.edges

2.MLlib 中可以调用mllib.tree.DecisionTree 类中的静态方法（）训练回归树

A.trainClassifier

B.trainRegressor

C.LogisticRegressionModel

D.LabeledPoint

3.以下哪个函数可以对RDD进行去重（）

A.sortBy

B.filter

C.distinct

D.intersection

4.图是一种数据元素间为（）关系的数据结构

A.多对多

B.一对一

C.一对多

D.多对一

5.GraphX中（）方法可以查询度数

A.degrees

B.degree

C.vertices

D.edges

6.Scala中（）方法返回一个列表，包含除了第一个元素之外的其他元素

A.head

B.init

C.tail

D.last

7.GraphX中graph.triplets可以得到（）

A.顶点视图

B.边视图

C.顶点与边的三元组整体视图

D.有向图

8.spark-submit配置项中（）表示启动的executor数量

A.--num-executors NUM

B.--executor-memory MEM

C.--total-executor-cores NUM

D.--executor-coures NUM

9.（）是AMPLab发布的一个R开发包，使得R摆脱单机运行的命运，可以作为Spark的Job运行在集群上

A.SparkR

B.BlinkDB

C.GraphX

D.Mllib

10.Spark GraphX中类Graph的collectNeighborIds(edgeDirection: EdgeDirection)方法可以（）

A.收集邻居顶点的顶点Id和顶点属性

B.收集邻居顶点的顶点Id

C.向指定顶点发送信息并聚合信息

D.将顶点信息更新到图中

11.Mllib中线性会馆算法中的参数reParam表示（）

A.要运行的迭代次数

B.梯度下降的步长

C.是否给数据加干扰特征或者偏差特征

D.Lasso 和ridge 的正规化参数

12.Scala列表方法中通过给定的方法将所有元素重新计算的方法是（）

A.filter

B.foreach

C.map

D.mkString

13.Scala函数组合器可以把一个二维的列表展开成一个一维的列表的方法是（）

A.filter

B.flatten

C.grouby

D.flatmap

14.GraphX中（）方法可以释放顶点缓存

A.cache

B.presist

C.unpersistVertices

D.edges.unpersist

15.Spark GraphX中类Graph的aggregateMessages方法可以（）

A.收集邻居顶点的顶点Id和顶点属性

B.收集邻居顶点的顶点Id

C.向指定顶点发送信息并聚合信息

D.将顶点信息更新到图中

二、多选题 (共 10 道试题,共 20 分)

16.MLBase包括（）

A.Mllib

B.MLI

C.SparkR

D.GraphX

17.Spark创建DataFrame对象方式有（）

A.结构化数据文件

B.外部数据库

C.RDD

D.Hive中的表

18.TF-IDF中IDF指的是（）

A.词频

B.词在文档中出现的次数

C.逆文档概率

D.词在文档集中出现的概率

E.词在文档集中出现的概率

19.Spark中DataFrame的（）方法是查询指定字段的数据信息

A.select

B.selectExpr

C.col

D.apply

20.以下算法中属于监督学习算法的是（）

A.KNN算法

B.逻辑回归

C.随机森林

D.Kmeans

21.以下哪个方法可以从集合中创建RDD（）

A.parallelize

B.makeRDD

C.textFile

D.loadFile

22.Scala函数支持（）

A.递归函数

B.高阶函数

C.柯里化

D.匿名函数

23.GraphX中Edge边对象存有（）字段

A.srcId

B.dstId

C.attr

D.val

24.Spark中的RDD的说法正确的是（）

A.弹性分布式数据集

B.是Spark中最基本的数据抽象

C.代表一个可变的集合

D.代表的集合里面的元素可并行计算

25.Spark支持使用（）语言编写应用

A.Scala

B.Python

C.Java

D.R

三、判断题 (共 10 道试题,共 20 分)

26.Scala中高阶函数可以使用函数作为参数，也可以使用函数作为输出结果。

27.RDD的sortBy函数包含参数numPartitions，该参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相等，即为this.partitions.size。

28.RDD的filter过滤会将返回值为true的过滤掉

29.RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除

30.图（Graph）是一种复杂的非线性结构

31.Spark中DataFrame 的查询操作也是一个懒操作，仅仅生成一个查询计划，只有触发Action 操作才会进行计算并返回查询结果。

32.RDD的map操作不会改变RDD的分区数目

33.Scala 集合分为可变的和不可变的集合

34.Spark RDD 是惰性求值的，如果需要对一个RDD 多次使用，那么调用行动操作时每次都需要重复计算RDD 以及它的依赖。

35.Scala 列表与数组非常相似，列表的所有元素可具有不同的类型。

四、主观填空题 (共 5 道试题,共 10 分)

36.Scala函数组合器可以把一个二维的列表展开成一个一维的列表的方法是##

37.Mllib中线性会馆算法中的参数reParam默认值是##

38.假设集合A 有5 个元素，集合B 有10 个元素，使用RDDcartesian函数会返回##个元素的组合

39.Scala中定义函数的关键字是##

40.Spark SQL 可以通过##方法将HDFS 上的格式化文件转换为DataFrame

五、问答题 (共 1 道试题,共 10 分)

41.请阐述Spark对数据进行持久化的特点

六、名词解释 (共 2 道试题,共 10 分)

42.SparkR

43.DStream

南开22秋学期《大数据开发技术（二）》在线作业[答案]相关练习题：
( ) 是指在教育过程中生成的课程目标。

国内市场按购买动机可分为（）。

Ping扫描是一种（）扫描。

有一批灯泡共1000箱，每箱200个，现随机抽取20箱并检查这些箱中的全部灯泡，此种检验属于（）。

根据《中华人民共和国环境保护法》的规定，环境影响报告书应在建设项目的哪一阶段报批？（）

下列那个不属于纵断面的控制点（）

照明监控系统有两个目的，一是环境照度控制，二是照明节能控制。

卡特尔强调人格发展受遗传与环境两者的共同影响，他创立了 ()来推断遗传和环境对每一种特质发展的影响程度。

经济权利是由（）所确认的一种资格或许可

南开大学获得鲁班奖的建筑是“南开大学新校区（津南校区）图书馆”

因报废、毁损及盘亏等原因减少的固定资产，事业单位应作的会计分录为（）。

缩短生产－配送周期是()。

由于金币本位制的"四大自由,当时各国货币的汇率 ( )

AutoCAD软件中，下列关于图层的说法正确的有()。

幼儿学习将相关的物体一一匹配，这属于（）。

The young driver looked over the engine carefully lest it____________on the way.

继承人丧失继承权的情形包括（）

选择题1/ / /

证券投资基金按组织形式可分为()。

某零售店主要采用现金销售，应收账款较少。该店的速动比率若保持在（ )的水平上，应当被认为是正常的。