3. 简述实现统计学习方法的步骤。
★考核知识点:统计机器学习
参见讲稿章节: 2.3
附2.2.3:(考核知识点解释)
实现统计学习方法的步骤如下:
(1) 得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略:
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或分析。
4. 简述关联规则的挖掘步骤。
★考核知识点:关联规则分析
参见讲稿章节:3.3
附2.2.4:(考核知识点解释)
关联规则的挖掘通常可以分解为以下两个步骤:
1)产生频繁项集
如果某个项集的支持度大于最小支持度阈值则称这个项集为频繁项集。可以有频繁1项集、频繁2项集…频繁k项集
第一步就是要发现所有满足最小支持度阈值的项集,即发现所有频繁项集。
这些阈值通常根据数据分析的需要人为设定
2)关联规则的产生
从上一步发现的频繁项集中提取所有满足最小置信度阈值的规则,强关联规则。
5. 简述Apriori算法的核心思想。
★考核知识点:Apriori算法
参见讲稿章节: 3.4
附2.2.5:(考核知识点解释)
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,算法有两个关键步骤:一是发现所有的频繁项集;二是生成强关联规则。
Apriori算法的核心思想如下:对于给定的一个数据库和最小支持度阈值,首先对其进行扫描,找出所有的频繁1-项集,该集合记作L1;然后得用L1找频繁2-项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k-项集。最后在所有的频繁集中提取出强规则,即产生用户感兴趣的关联规则。
6. 简述k近邻法的核心思想、基本算法过程,并分析其优缺点。
★考核知识点:k近邻法
参见讲稿章节: 4.2
附2.2.6:(考核知识点解释)
k近邻法的核心思想是,如果一个样本在特征空间的k个最相邻样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。
给定一个训练数据集,对ABC输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。
k近邻的优点:简单,易于理解,易于实现,无需估计参数,对噪声数据不敏感。
缺点:需要存储所有的样本,空间复杂度高;计算复杂度高。
7. 层次聚类算法分为哪两种方法?简述这两个层次聚类算法。
★考核知识点:层次聚类
参见讲稿章节: 5.4
附2.2.7:(考核知识点解释)
层次聚类算法是假设类别之间存在层次结构,将样本聚到层次化的类中。
层次聚类又有聚合或自底向上聚类、分裂或自顶向下聚类两种方法。
聚合聚类开始将每个样本各自分到一个类,之后将相距最近的两类合并,建立一个ABC类,重复此操作直到满足终止条件,得到层次化的类别。
分裂聚类开始将所有样本分到一个类,之后将已有类中相距最远的样本分到两个ABC类,重复此操作直到满足停止条件,得到层次化的类别。
8. 简述k-Means算法计算过程。
★考核知识点:k均值 聚类
参见讲稿章节:5.5
附2.2.8:(考核知识点解释)
(1)从D中随机选取k个元素,形成k个簇,每个簇中含有一个元素,元素即为簇的质心。
(2)将剩下的元素分别划归到与其最近的簇,即与质心相似度最大的簇。
(3)划归所有元素后,重新计算k个簇各自的质心。
(4)将D中全部元素按照ABC簇质心重新划归到与其最近的簇。
(5)重复第3、4步,直到聚类结果不再变化。
(6)将结果输出。
9. 简述MapReduce算法计算过程。
★考核知识点:大数据分析算法
参见讲稿章节: 6.1
附2.2.9:(考核知识点解释)
MapReduce计算过程:1).有多个Map任务,每个任务的输入是DFS(分布式文件系统)中的一个或多个文件块。Map任务将文件转换成一个键-值(key-value)对序列。从输入数据产生键-值对的具体方式由用户编写的Map函数代码决定。
2).主控制器从每个Map任务中收集一系列键-值对,并将它们按照大小排序。这些键又被分到所有的Reduce任务中,所以具有相同键的键-值对应该归到同一Reduce任务中。
3). Reduce任务每次作用于一个键,并将与此键关联的所有值以某种方式组合起来。具体的组合方式取决于用户所编写的Reduce函数代码。
10. 简述单词向量空间模型的基本想法及其优点和局限性。
★考核知识点:文本分析模型
参见讲稿章节: 7.1
附2.2.10:(考核知识点解释)
单词向量空间模型的基本想法是:文档的基本含义是通过该文档包含的词来表述的,可将文档看成词袋(bag of words)的形式,每一个词作为文档的一个特征,由特征词组成的特征向量来描述每一个文档。给定一个文本,用一个向量表示该文本的“语义”,向量的每一维对应一个单词,其数值为该单词在文本中的权重值;基本假设是文本中所有单词的出现情况表示了文本的语义内容;文本集合中的每个文本都表示为一个向量,存在于一个向量空间;向量空间的度量,表示文本之间的“语义相似度”。
单词向量空间模型的优点是模型简单,计算效率高。
因为单词向量通常是稀疏的,两个向量的内积计算只需要在其同不为零的维度上进行即可,需要的计算很少,可以高效地完成。
单词向量空间模型也有一定的局限性,体现在内积相似度未必能够准确表达两个文本的语义相似度。因为自然语言的单词具有一词多义性及多词一义性,即同一个单词可以表示多个语义,多个单词可以表示同一个语义,所以其于单词向量的相似度计算存在不精确的问题。
11. 简述潜在语义分析LSA基本思想,并分析其优点与缺点。。
★考核知识点: 潜在语义分析
参考讲稿章节:7.3
附2.2.11:(考核知识点解释)
潜在语义分析(latent semantic analysis, LSA)主要用于文本的话题分析,将文本在单词向量空间的表示通过线性变换转换为在话题向量空间中的表示,发现文本与单词之间的基于话题的语义关系。潜在语义分析旨在解决单词向量空间模型不能准确表示语义的问题,试图从大量的文本数据中发现潜在的话题,以话题向量表示文本的语义内容,以话题向量空间的度量更准确地表示文本之间的语义相似度。这也是话题分析(topic modeling)的基本想法。
潜在语义分析的优点在于:可以把原文本特征空间降维到一个低维语义空间,减轻一词多义和一义多词问题。
缺点是在矩阵的奇异值分解时,特别耗时,一般而言一个文本特征矩阵维数都会特别庞大,矩阵的奇异值分解此时就更加耗时。
12. 简述概率潜在语义分析PLSA的特点和基本想法。
★考核知识点:概率潜在语义分析
参见讲稿章节:7.4
附2.2.12:(考核知识点解释)
概率潜在语义分析(probabilistic latent semantic analysis, PLSA),是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。模型的最大特点是用隐变量表示话题;整个模型表示文本生成话题,话题生成单词,从而得到单词一文本共现数据的过程;假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。
给定一个文本集合,每个文本讨论若干个话题,每个话题由若干个单词表示。对文本集合进行概率潜在语义分析,就能够发现每个文本的话题,以及每个话题的单词。话题是不能从数据中直接观察到的,是潜在的。文本集合转换为文本——单词共现数据,具体表现为单词-文本矩阵。一个话题表示一个语义内容。文本数据基于如下的概率模型产生:首先有话题的概率分布,然后有话题给定条件下文本的条件概率分布,以及话题给定条件下单词的条件概率分布。概率潜在语义分析就是发现由隐变量表示的话题,即潜在语义。直观上,语义相近的单词、语义相近的文本会被聚到相同的“软的类别”中,而话题所表示的就是这样的软的类别。
假设定义了K个话题和M个单词。任何一个文本是由K个话题中的多个混合而成。每个文本都可以看作话题集合上的一个概率分布,也就是每个文本以某个概率匹配某一个话题。每个话题都是单词集合上的一个概率分布,这意味着文本中的每个单词都看成是由某一个的话题以某种概率随机生成的。
13. 试比较PageRank算法和HITS算法。
★考核知识点:PageRank算法和HITS算法
参见讲稿章节: 8.3
附2.2.13:(考核知识点解释)
相同点:两者都是为了提高搜索引擎查找质量而提出的两种不同算法。
不同点:1)两者对网页的描述形式不同。
PageRank算法只用一个量值来表示网页的重要程度,而HITS算法对网页从权威性和集线性两个不同的方面来进行描述。
2)两者的理论基础不同。虽然两者的迭代算法都利用了特征向量作为理论基础和收敛性依据,但PageRank算法更具理论支持,它用马尔可夫随机游走来建模,并用马氏链的理论来进行解释;而HITS算法更多是基于人的直观,缺乏很好的理论模型。
3)两者计算所选取的链接网络不同。PageRank算法与用户查询无关,针对的是整个互联网的链接结构图,所有处理过程都是离线进行的,不会为实时在线查询过程付出额外的代价。HITS算法则不同,它依赖于特定的查询,是针对与特定查询相关的互联网子图来进行计算,规模上的极大减小可以使HITS算法的迭代收敛速度比PageRank算法要快得多。但因为与查询相关,所以查询过程以及扩展根集的过程都需要付出代价,还有可能在扩展过程中,引入大量的噪声信息,造成主题漂移出现。
以前的研究工作已经证明HITS算法的性能跟PageRank算法旗鼓相当、不相上下。
14. 简述基于内容的推荐算法的基本思想、优势和不足。
★考核知识点:基于内容的推荐算法
参见讲稿章节:10.2
附2.2.14:(考核知识点解释)
基于内容的推荐算法主要思想:根据用户过去喜欢的项,为用户推荐和他过去喜欢的物品相似的项。
基于内容的推荐算法优势在于:1)不需要其他用户的信息,2)能为具有特殊兴趣爱好的用户进行个性化推荐,3)能够准确推荐较ABC或相对小众的项,4)具有较好的可解释性。
不足在于:1)对特征提取算法要求较高,准确提取特征难度大,2)针对新用户缺少好的推荐策略,3)过度特化,从不推荐用户模型外的项,4)无法利用其他用户的高质量评价。



