数据挖掘考试题.doc-资源下载-咨信网-让知识获取变得高效

数据挖掘考试题.doc

1、数据挖掘考试题一．选择题 1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？( ) A.分类 B.聚类 C.关联分析 D.主成分分析 2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。 A.MIN(单链) B.MAX(全链) C.组平均 D.Ward方法 3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。 A 分类 B 预测 C关联规则分析 D聚类 4.关于K均

2、值和DBSCAN的比较，以下说法不正确的是( ) A.K均值丢弃被它识别为噪声的对象，而DBSCAN一般聚类所有对象。 B.K均值使用簇的基于原型的概念，DBSCAN使用基于密度的概念。 C.K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的簇 D.K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇 5.下列关于Ward’s Method说法错误的是：( ) A.对噪声点和离群点敏感度比较小 B.擅长处理球状的簇 C.对于Ward方法，两个簇的邻近度定义为两个簇合并时导致的平方误差 D.当两个点之间的邻近

3、度取它们之间距离的平方时，Ward方法与组平均非常相似 6. 下列关于层次聚类存在的问题说法正确的是：( ) A. 具有全局优化目标函数 B. Group Average擅长处理球状的簇 C. 可以处理不同大小簇的能力 D. Max对噪声点和离群点很敏感 7.下列关于凝聚层次聚类的说法中，说法错误的事：( ) A.一旦两个簇合并，该操作就不能撤销 B.算法的终止条件是仅剩下一个簇 C.空间复杂度为 D.具有全局优化目标函数 8.规则{牛奶，尿布}→{啤酒}的支持度和置信度分别为：( ) TID 项集 1 2 3 4 5

4、{面包，牛奶} {面包，尿布，啤酒，鸡蛋} {牛奶，尿布，啤酒，可乐} {面包，牛奶，尿布，啤酒} {面包，牛奶，尿布，可乐} A.0.4,0.4 B.0.67,0.67 C.0.4,0.67 D.0.67,0.4 9.下列( )是属于分裂层次聚类的方法。 A.Min B.Max C.Group Average D.MST 10.对下图数据进行凝聚聚类操作，簇间相似度使用MAX计算，第二步是哪两个簇合并：( ) A.在{3}和{l,2}合并 B.{3}和{4,5}合并 C.{2,3}和{4,5}合并 D. {2,3}和{

5、4,5}形成簇和{3}合并二．填空题： 1. 属性包括的四种类型：、、、。 2. 是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。 3. 基本凝聚层次聚类算法空间复杂度，时间复杂度，如果某个簇到其他所有簇的距离存放在一个有序表或堆中，层次聚类所需要的时间复杂度将为。 4. 聚类中，定义簇间的相似度的方法有（写出四个）：、、、。 5. 层次聚类技术是第二类重要的聚类方法。两种层次聚类

6、的基本方法：、。 6. 组平均是一种界于和之间的折中方法。 7. 相似度矩阵可以用相识度表示还可以用表示。 8. 全链在处理大小不同的簇时，可能使破裂，并且偏好。 9. 单链技术擅长于处理，但对和很敏感。 10. 聚类分析可以看做是一种的分类。（有监督、无监督）三．判断题 1. 从点作为个体簇开始，每一步合并两个最接近的簇，这是一种

7、分裂的层次聚类方法。（） 2. 数据挖掘的目标不在于数据采集策略，而在于对已经存在的数据进行模式的发掘。（） 3. 在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。（） 4. 当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似。（） 5. DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇。（） 6. 属性的性质不必与用来度量他的值的性质相同。（） 7. 全链对噪声点和离群点很敏感。（） 8. 对于非对称的属性，只有非零值才是重要的。（） 9. K均值可以很好的处理不同密度的数据。（） 10. 单链技术擅长处

8、理椭圆形状的簇。（）四．综合题 1. 何为层次聚类？它用哪两种图表示？ 2. 两种层次聚类的基本方法？两种方法的定义？ 3. 分别写出Min、Max和组平均的优缺点？ 4. 写出基本凝聚层次聚类的算法？ 5. 由下图已给出的距离矩阵，将Max用于6个点样本数据集，画出层次聚类的树状图？ P1 P2 P3 P4 P5 P6 P1 0.00 0.24 0.22 0.37 0.34 0.23 P2 0.24 0.00 0.14 0.20 0.13 0.25 P3 0.22 0.14 0.00 0.15 0.28 0.11

9、 P4 0.37 0.20 0.15 0.00 0.29 0.22 P5 0.34 0.13 0.28 0.29 0.00 0.39 P6 0.23 0.25 0.11 0.22 0.39 0.00 考试题+答案一．选择题 1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B) A.分类 B.聚类 C.关联分析 D.主成分分析 2. （C）将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。 A.MIN(单链) B.MAX

10、全链) C.组平均 D.Ward方法 3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了(C )数据挖掘方法。 A 分类 B 预测 C关联规则分析 D聚类 4.关于K均值和DBSCAN的比较，以下说法不正确的是(A) A.K均值丢弃被它识别为噪声的对象，而DBSCAN一般聚类所有对象。 B.K均值使用簇的基于原型的概念，DBSCAN使用基于密度的概念。 C.K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的簇 D.K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并

11、有重叠的簇 5.下列关于Ward’s Method说法错误的是：（C） A.对噪声点和离群点敏感度比较小 B.擅长处理球状的簇 C.对于Ward方法，两个簇的邻近度定义为两个簇合并时导致的平方误差 D.当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似 7. 下列关于层次聚类存在的问题说法正确的是：（B） A具有全局优化目标函数 B.Group Average擅长处理球状的簇 C.可以处理不同大小簇的能力 D.Max对噪声点和离群点很敏感 7.下列关于凝聚层次聚类的说法中，说法错误的事：（D） A.一旦两个簇合并，该操作就不能撤销 B.算法的终止

12、条件是仅剩下一个簇 C.空间复杂度为 D.具有全局优化目标函数 8.规则{牛奶，尿布}→{啤酒}的支持度和置信度分别为：(C) TID 项集 1 2 3 4 5 {面包，牛奶} {面包，尿布，啤酒，鸡蛋} {牛奶，尿布，啤酒，可乐} {面包，牛奶，尿布，啤酒} {面包，牛奶，尿布，可乐} A.0.4,0.4 B.0.67,0.67 C.0.4,0.67 D.0.67,0.4 9.下列( D)是属于分裂层次聚类的方法。 A.Min B.Max C.Group Average D.MST 10.对

13、下图数据进行凝聚聚类操作，簇间相似度使用MAX计算，第二步是哪两个簇合并：（B） A.在{3}和{l,2}合并 B.{3}和{4,5}合并 C.{2,3}和{4,5}合并 D. {2,3}和{4,5}形成簇和{3}合并二．填空题： 1.属性包括的四种类型：标称、序数、区间、比率。 2.组平均是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。 3. 基本凝聚层次聚类算法空间复杂度，时间复杂度，如果某个簇到其他所有簇的距离存放在一个有序表或堆中，层次聚类所需要的时间复杂度将为。 4. 聚类中，定义簇间的相似度的方法有（写出四个）：MIN（单链）、MAX（全链

14、组平均、Ward方法。 5. 层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方法：凝聚层次聚类、分裂层次聚类。 6.组平均是一种界于单链和全链之间的折中方法。。 7. 相似度矩阵可以用相识度表示还可以用距离表示。 8. 全链在处理大小不同的簇时，可能使大的簇破裂，并且偏好球形。 9. 单链技术擅长于处理非椭圆形状的簇，但对噪声点和离群点很敏感。 10. 聚类分析可以看做是一种无监督的分类。（有监督、无监督）三．判断题： 1. 从点作为个体簇开始，每一步合并两个最接近的簇，这

15、是一种分裂的层次聚类方法。（×） 2. 数据挖掘的目标不在于数据采集策略，而在于对已经存在的数据进行模式的发掘。（ √） 3. 在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。（× ） 4. 当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似。（ √） 5. DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇。（ √） 6. 属性的性质不必与用来度量他的值的性质相同。（√ ） 7. 全链对噪声点和离群点很敏感。（× ） 8. 对于非对称的属性，只有非零值才是重要的。（√ ） 9. K均值可以很好的处理不同密度的数据。（× ）

16、10.单链技术擅长处理椭圆形状的簇。（× ）四．综合题 1. 何为层次聚类？它用哪两种图表示？层次聚类为嵌套簇的聚集，组成一棵层次数。两种主要图的表示：树状图和嵌套簇图。 2. 两种层次聚类的基本方法？两种方法的定义？凝聚层次聚类和分裂层次聚类凝聚的：从点作为个体簇开始，每一步合并两个最接近的簇。分裂的：从包含所有点的某个簇开始，每一步分裂一个簇，直到仅剩下单点簇。 3.分别写出Min、Max和组平均的优缺点？定义方式优点缺点 Min 能处理非椭圆形状对噪声和离群点很敏感 Max 对噪声点和离群点敏感度较小

17、 1. 当处理簇大小不同时，较大的簇容易破裂 2. 偏好处理球状的簇组平均对噪声点和离群点敏感度较小偏好处理球状的簇 4.写出基本凝聚层次聚类的算法？算法步骤： (1) 计算邻近度矩阵 (2) Repeat (3) 合并最邻近的两个簇 (4) 更新邻近度矩阵，以反映新的簇与原来的簇之间的邻近度 (5) Until 仅剩下一个簇 5.由下图已给出的距离矩阵，将Max用于6个点样本数据集，画出层次聚类的树状图？ P1 P2 P3 P4 P5 P6 P1 0.00 0.24 0.22 0.37 0.34 0.23 P2

18、 0.24 0.00 0.14 0.20 0.13 0.25 P3 0.22 0.14 0.00 0.15 0.28 0.11 P4 0.37 0.20 0.15 0.00 0.29 0.22 P5 0.34 0.13 0.28 0.29 0.00 0.39 P6 0.23 0.25 0.11 0.22 0.39 0.00 这是告诉你的计算过程，现在不要写了。 P3和P6最近所以36结合，P2和P5较近，所以25结合，现在是{3,6}、{2,5}、{1}和{4}， Dist({3,6},{4}) = max(dis

19、t(3,4),dist(6,4))= max(0.15,0.22)=0.22 Dist({3,6},{2,5}) = max(dist(3,2),dist(6,2),dist(3,5),dist(6,5)) =max(0.14,0.25,0.28,0.39)=0.39 Dist({3,6},{1})=max(dist(3,1),dist(6,1))=max(0.22,0.23)=0.23 所以{3,6}和{4}结合。现在还剩{3,6,4}、{2,5}和{1} Dist({3,6,4},{2,5})=max(dist(3,2),dist{3,5},dist(6,2),dist(6,5),dist(4,2),dist(4,5)) =max(0.14,0.28,0.25,0.39,0.20,0.29)=0.39 Dist({3,6,4},{1})=max(dist(3,1),dist(6,1),dist(4,1))=max(0.22,0.23,0.37)=0.37 Dist({2,5},{1})=max(dist(2,1),dist(5,1))=max(0.24,0.34)=0.34 所以{2,5}和{1}结合 Dist({3,6,4},{2,5,1})=0.39

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？