当前位置:   article > 正文

《数据挖掘与机器学习》—— 第五章 无监督学习作业_数据挖掘与机器学习weka袁梅宇答案、

数据挖掘与机器学习weka袁梅宇答案、

第五章 无监督学习作业及答案

题量: 20 满分: 100

快捷查找:Ctrl+F   在搜索框中输入题目

一. 单选题(共12题)

1. (单选题)下列属于无监督学习的是:

A. kmeans

B. svm

C. 最大熵

D. crf

答案: A: kmeans;

2. (单选题)关于主成分分析PCA说法不正确的是(   )

A. 我们必须在使用PCA前规范化数据  

B. 我们应该选择使得模型有最大variance的主成分

C. 我们应该选择使得模型有最小variance的主成分  

D. 我们可以使用PCA在低纬度上做数据可视化

答案: C:我们应该选择使得模型有最小variance的主成分 ;

3. (单选题)以下对k-means聚类算法解释正确的是(   )

A. 能自动识别类的个数,随即挑选初始点为中心点计算    

B. 能自动识别类的个数,不是随即挑选初始点为中心点计算

C. 不能自动识别类的个数,随即挑选初始点为中心点计算    

D. 不能自动识别类的个数,不是随即挑选初始点为中心点计算

答案: C:不能自动识别类的个数,随即挑选初始点为中心点计算 ;

4. (单选题)简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作(   )

A. 层次聚类    

B. 划分聚类    

C. 非互斥聚类  

D. 模糊聚类

答案: B:划分聚类 ;

5. (单选题)下列关于凝聚层次聚类的说法,说法正确的是(   )

A. 一旦两个簇合并,该操作还能撤销  

B. 算法的终止条件是仅剩下一个簇

C. 空间复杂度O(m2-1)

D. 具有全局优化目标函数

答案: B:算法的终止条件是仅剩下一个簇;

6. (单选题)将两个簇的邻近度定义为不同簇的所有点对的邻近度的平均值,它是一种(   )凝聚层次聚类技术。

A. 单链接

B. 全链接  

C. 组平均  

D. 质心距离

答案: C:组平均 ;

7. (单选题)影响基本K-均值算法的主要因素不包括(  )

A. 样本输入顺序  

B. 模式相似性测度  

C. 聚类准则  

D. 初始类中心的选取

答案: A. 样本输入顺序

8. (单选题)()将两个簇的邻近度定义为不同簇中任意两点的最短距离,它是哪一种凝聚层次聚类技术?

A. MIN(单链)

B. MAX(全链)

C. 组平均

D. Ward方法

答案:A. MIN(单链)

9. (单选题)下列哪个描述是正确的?

A. 分类和聚类都是有指导的学习

B. 分类和聚类都是无指导的学习

C. 分类是有指导的学习,聚类是无指导的学习  

D. 分类是无指导的学习,聚类是有指导的学习

答案: C:分类是有指导的学习,聚类是无指导的学习 ;

10. (单选题)以下哪种技术对于减少数据集的维度会更好?

A. 删除缺少值太多的列

B. 删除数据差异较大的列    

C. 删除不同数据趋势的列    

D. 都不是

答案: A:删除缺少值太多的列;

11. (单选题)以下不属于影响聚类算法结果的主要因素有(   )

A. 已知类别的样本质量

B. 分类准则  

C. 特征选取  

D. 模式相似性测度

答案: A: 已知类别的样本质量 ;

12. (单选题)在有监督学习中, 我们如何使用聚类方法?(  )

1 我们可以先创建聚类类别, 然后在每个类别上用监督学习分别进行学习

2 我们可以使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习

3 在进行监督学习之前, 我们不能新建聚类类别

4 我们不可以使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习

A. 2 和 4

B. 1 和 2

C. 3 和 4

D. 1 和 3

答案: B:1 和 2 ;

二. 多选题(共3题)

13. (多选题)下列哪些适合用来对高维数据进行降维?

A. LASSO  

B. 主成分分析法

C. 特征选择

D. 聚类分析

答案:BC;B. 主成分分析法;C. 特征选择

14. (多选题)以下描述错误的是(  )

A. SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier)

B. 在聚类分析中,簇内的相似性越大,簇间的差别越大,聚类的效果越好

C. 决策树中,随着树中节点变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题

D. 聚类分析可以看做是一种非监督的分类

答案: AC: SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier) ; 决策树中,随着树中节点变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题 ;

15. (多选题)我们想要减少数据集中的特征数, 即降维。选择以下适合的方案 :

A. 使用前向特征选择方法

B. 使用后向特征排除方法

C. 我们先把所有特征都使用, 去训练一个模型, 得到测试集上的表现. 然后我们去掉一个特征, 再去训练, 用交叉验证看看测试集上的表现. 如果表现比原来还要好, 我们可以去除这个特征.

D. 查看相关性表, 去除相关性最高的一些特征

答案: ABCD:使用前向特征选择方法; 使用后向特征排除方法 ; 我们先把所有特征都使用, 去训练一个模型, 得到测试集上的表现. 然后我们去掉一个特征, 再去训练, 用交叉验证看看测试集上的表现. 如果表现比原来还要好, 我们可以去除这个特征. ; 查看相关性表, 去除相关性最高的一些特征;

三. 判断题(共5题)

16. (判断题)聚类分析可以看作是一种非监督的分类。

A. 对

B. 错

答案: 对

17. (判断题)K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。

A. 对

B. 错

答案: 错

18. (判断题)聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。

A. 对

B. 错

答案: 对

19. (判断题)如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。  

A. 对

B. 错

答案: 对

20. (判断题)在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

A. 对

B. 错

答案: 错

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/204415
推荐阅读
相关标签
  

闽ICP备14008679号