35.一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。
正确答案:-----
36.Pearson相关系数是判断特征之间、以及特征和目标变量之间线性相关关系的统计量。
37.BFR聚类簇的坐标可以与空间的坐标保持一致。
38.在一元线性回归中,输入只包含一个单独的特征。
39.为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。
40.K均值(K-Means)算法是密度聚类。
41.数据分析师的任务:用模型来回答具体问题,了解数据,其来源和结构
42.交叉表被广泛用于调查研究,商业智能,工程和科学研究
43.获取数据的方式有多种,可以从网页、测量、数据库、传统媒体、监控等等方式
44.如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。
45.对于项集来说,置信度没有意义。
46.神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。
47.给定关联规则A→B,意味着:若A发生,B也会发生。
48.随着特征维数的增加,特征空间呈指数倍增长,样本密度急剧减小,样本稀疏。
49.一个人的身高与体重之间具有函数关系。
50.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。
正确答案:-----
南开22春学期《数据科学导论》在线作业[答案]历年参考题目如下:
21春学期(1709、1803、1809、1903、1909、2003、2009、2103)《数据科学导论》在线作业
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.BFR聚类是用于处理数据集()的k-means变体。
A.大
B.中
C.小
D.所有
2.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()
A.1,2,3,4
B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
3.以下哪一项不是特征选择常见的方法()
A.过滤式
B.封装式
C.嵌入式
D.开放式
4.例如将工资收入属性值映射到[-1,1]或者[0,1]内属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
5.对于k近邻法,下列说法错误的是()。
A.不具有显式的学习过程
B.适用于多分类任务
C.k值越大,分类效果越好
D.通常采用多数表决的分类决策规则
6.手肘法的核心指标是()。
A.SES
B.SSE
C.RMSE
D.MSE
7.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
A.减小,减小
B.减小,增大
C.增大,减小
D.增大,增大
8.变量之间的关系一般可以分为确定性关系与()。
A.非确定性关系
B.线性关系
C.函数关系
D.相关关系
9.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A.产量每增加一台,单位成本增加100元
B.产量每增加一台,单位成本减少1.2元
C.产量每增加一台,单位成本平均减少1.2元
D.产量每增加一台,单位平均增加100元
10.层次聚类对给定的数据进行()的分解。
A.聚合
B.层次
C.分拆
D.复制
11.下列两个变量之间的关系中,哪个是函数关系()。
A.人的性别和他的身高
B.人的工资与年龄
C.正方形的面积和边长
D.温度与湿度
12.通过变量标准化计算得到的回归方程称为()。
A.标准化回归方程
B.标准化偏回归方程
C.标准化自回归方程
D.标准化多回归方程
13.以下属于关联分析的是( )
A.CPU性能预测
B.购物篮分析
C.自动判断鸢尾花类别
D.股票趋势建模
14.单层感知机模型属于()模型。
A.二分类的线性分类模型
B.二分类的非线性分类模型
C.多分类的线性分类模型
D.多分类的非线性分类模型
15.以下哪一项不属于数据变换()
A.简单函数变换
B.规范化
C.属性合并
D.连续属性离散化
16.层次聚类适合规模较()的数据集
A.大
B.中
C.小
D.所有
17.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘( )
A.K-means
B.Bayes Network
C.C4.5
D.Apriori
18.根据映射关系的不同可以分为线性回归和()。
A.对数回归
B.非线性回归
C.逻辑回归
D.多元回归
19.数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”,概括性来说,脏数据不包括以下()
A.普通值
B.异常值
C.不一致的值
D.重复值
20.在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。
A.最优回归线
B.最优分布线
C.最优预测线
D.最佳分布线
二、多选题 (共 10 道试题,共 20 分)
21.层次聚类的方法是()
A.聚合方法
B.分拆方法
C.组合方法
D.比较方法
22.k近邻法的基本要素包括()。
A.距离度量
B.k值的选择
C.样本大小
D.分类决策规则
23.对于多层感知机,()层拥有激活函数的功能神经元。
A.输入层
B.隐含层
C.输出层
24.Apriori算法的计算复杂度受()影响。
A.支持度阈值
B.项数
C.事务数
D.事务平均宽度
25.系统日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
26.K-means聚类中K值选取的方法是()。
A.密度分类法
B.手肘法
C.大腿法
D.随机选取
27.多层感知机的学习过程包含()。
A.信号的正向传播
B.信号的反向传播
C.误差的正向传播
D.误差的反向传播
28.什么情况下结点不用划分()
A.当前结点所包含的样本全属于同一类别
B.当前属性集为空,或是所有样本在所有属性上取值相同
C.当前结点包含的样本集为空
D.还有子集不能被基本正确分类
29.下面例子属于分类的是()
A.检测图像中是否有人脸出现
B.对客户按照贷款风险大小进行分类
C.识别手写的数字
D.估计商场客流量
30.距离度量中的距离可以是()
A.欧式距离
B.曼哈顿距离
C.Lp距离
D.Minkowski距离
三、判断题 (共 20 道试题,共 40 分)
31.增加神经元的个数,无法提高神经网络的训练精度。
32.一个人的身高与体重之间具有函数关系。
33.可信度是对关联规则的准确度的衡量。
34.给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。
35.K均值(K-Means)算法是密度聚类。
36.具有双隐层的感知机足以用于解决任何复杂的分类问题。
37.当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。
38.集中趋势能够表明在一定条件下数据的独特性质与差异
39.给定关联规则A→B,意味着:若A发生,B也会发生。
40.数据科学运用科学方法分析数据,位于几个学科的交叉点并利用领域特定的知识,使大数据的分析成为可能。
41.BFR聚类簇的坐标可以与空间的坐标保持一致。
42.剪枝是决策树学习算法对付“过拟合”的主要手段



