数据挖掘考试题目——关联分析.doc-资源下载-咨信网-让知识获取变得高效

数据挖掘考试题目——关联分析.doc

1、数据挖掘考试题目——关联分析一、10个选择 1.以下属于关联分析的是（） A．CPU性能预测 B．购物篮分析 C．自动判断鸢尾花类别 D．股票趋势建模 2.维克托▪迈尔-舍恩伯格在《大数据时代：生活、工作与思维的大变革》一书中，持续强调了一个观点：大数据时代的到来，使我们无法人为地去发现数据中的奥妙，与此同时，我们更应该注重数据中的相关关系，而不是因果关系。其中，数据之间的相关关系可以通过以下哪个算法直接挖掘（） A．K-means B．Bayes Network C．C4.5 D．Apriori 3.置信度(confidence)是衡量兴趣度度量（）的指

2、标。 A．简洁性 B．确定性 C．实用性 D．新颖性 4.Apriori算法的加速过程依赖于以下哪个策略（） A．抽样 B．剪枝 C．缓冲 D．并行 5.以下哪个会降低Apriori算法的挖掘效率（） A．支持度阈值增大 B．项数减少 C．事务数减少 D．减小硬盘读写速率 6.Apriori算法使用到以下哪些东东（） A．格结构、有向无环图 B．二叉树、哈希树 C．格结构、哈希树 D．多叉树、有向无环图 7.非频繁模式（） A．其置信度小于阈值 B．令人不感兴趣 C．包含负模式和负相关模式 D．对异常数据项敏感 8.对频繁项集、频繁闭项集、极大频繁

3、项集的关系描述正确的是（）[注：分别以1、2、3代表之] A．3可以还原出无损的1 B．2可以还原出无损的1 C．3与2是完全等价的 D．2与1是完全等价的 9.Hash tree在Apriori算法中所起的作用是（） A．存储数据 B．查找 C．加速查找 D．剪枝 10.以下不属于数据挖掘软件的是（） A．SPSS Modeler B．Weka C．Apache Spark D．Knime 二、10个填空 1.关联分析中表示关联关系的方法主要有：和。 2.关联规则的评价度量主要有：和

4、。 3.关联规则挖掘的算法主要有：和。 4.购物篮分析中，数据是以的形式呈现。 5.一个项集满足最小支持度，我们称之为。 6.一个关联规则同时满足最小支持度和最小置信度，我们称之为。 7.在回归与相关分析中，因变量值随自变量值的增大（减小）而减小（增大）的现象叫做。 8.极大频繁项集不能无损还原出频繁项集，是因为它不包含频繁项集的信息。 9.经典的Apriori算法是逐层扫描的，也就是说它是 (选:深度

5、/宽度)优先的。 10.数据挖掘大概步骤包括：输入数据à预处理à挖掘à后处理à输出知识。其中，输出的知识可以有很多种表示形式，两种极端的形式是：①内部结构难以被理解的黑匣子，比如说人工神经网络训练得出的网络；②模式结构清晰的匣子，这种结构容易被人理解，比如说决策树产生的树。那么，关联分析中输出的知识的表示形式主要是 (选:黑匣子/清晰结构)。三、10个判断（）1.啤酒与尿布的故事是聚类分析的典型实例。（）2.Apriori算法是一种典型的关联规则挖掘算法。（）3.支持度是衡量关联规则重要性的一个指标。（）4.可信度是对关联规则的准确度

6、的衡量。（）5.给定关联规则AàB，意味着：若A发生，B也会发生。（）6.频繁闭项集可用来无损压缩频繁项集。（）7.关联规则可以用枚举的方法产生。（）8.Apriori算法产生的关联规则总是确定的。（）9.不满足给定评价度量的关联规则是无趣的。（）10.对于项集来说，置信度没有意义。四、5个简答 1.简述关联规则产生的两个基本步骤。 2.Apriori算法是从事务数据库中挖掘布尔关联规则的常用算法，该算法利用频繁项集性质的先验知识，从候选项集中找到频繁项集。请简述Apriori算法的基本原理。 3.简述Apriori算法的优点和缺点

7、 4.针对Apriori算法的缺点，可以做哪些方面的改进？ 5.强关联规则一定是有趣的吗？为什么？数据挖掘考试题目+参考答案一、10个选择 1.以下属于关联分析的是（ B ） A．CPU性能预测 B．购物篮分析 C．自动判断鸢尾花类别 D．股票趋势建模 2.维克托▪迈尔-舍恩伯格在《大数据时代：生活、工作与思维的大变革》一书中，持续强调了一个观点：大数据时代的到来，使我们无法人为地去发现数据中的奥妙，与此同时，我们更应该注重数据中的相关关系，而不是因果关系。其中，数据之间的相关关系可以通过以下哪个算法直接挖掘（ D ） A．K-means B．Bayes Net

8、work C．C4.5 D．Apriori 3.置信度(confidence)是衡量兴趣度度量（ B ）的指标。 A．简洁性 B．确定性 C．实用性 D．新颖性 4.Apriori算法的加速过程依赖于以下哪个策略（ B ） A．抽样 B．剪枝 C．缓冲 D．并行 5.以下哪个会降低Apriori算法的挖掘效率（ D ） A．支持度阈值增大 B．项数减少 C．事务数减少 D．减小硬盘读写速率 6.Apriori算法使用到以下哪些东东（ C ） A．格结构、有向无环图 B．二叉树、哈希树 C．格结构、哈希树 D．多叉树、有向无环图 7.非频繁模式（ D ） A．其置信

9、度小于阈值 B．令人不感兴趣 C．包含负模式和负相关模式 D．对异常数据项敏感 8.对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是（ B ）[注：分别以1、2、3代表之] A．3可以还原出无损的1 B．2可以还原出无损的1 C．3与2是完全等价的 D．2与1是完全等价的 9.Hash tree在Apriori算法中所起的作用是（ C ） A．存储数据 B．查找 C．加速查找 D．剪枝 10.以下不属于数据挖掘软件的是（ C ） A．SPSS Modeler B．Weka C．Apache Spark D．Knime 二、10个填空 1.关联分析中表示关联关系

10、的方法主要有：项集和关联规则。 2.关联规则的评价度量主要有：支持度和置信度。 3.关联规则挖掘的算法主要有： Apriori 和 FP-Growth 。 4.购物篮分析中，数据是以不对称二元变量的形式呈现。 5.一个项集满足最小支持度，我们称之为频繁项集。 6.一个关联规则同时满足最小支持度和最小置信度，我们称之为强规则。 7.在回归与相关分析中，因变量值随自变量值的增大（减小）而减小（增大）的现象叫做负相关。 8.极大频繁项集不能无损还原出频繁项集，是因为它不包含频繁项集的支持度信息。

11、 9.经典的Apriori算法是逐层扫描的，也就是说它是宽度 (选:深度/宽度)优先的。 10.数据挖掘大概步骤包括：输入数据à预处理à挖掘à后处理à输出知识。其中，输出的知识可以有很多种表示形式，两种极端的形式是：①内部结构难以被理解的黑匣子，比如说人工神经网络训练得出的网络；②模式结构清晰的匣子，这种结构容易被人理解，比如说决策树产生的树。那么，关联分析中输出的知识的表示形式主要是清晰结构 (选:黑匣子/清晰结构)。三、10个判断（ ✘ ）1.啤酒与尿布的故事是聚类分析的典型实例。（ ✔ ）2.Apriori算法是一种典型的关联规则挖掘算法。（ ✔

12、3.支持度是衡量关联规则重要性的一个指标。（ ✔ ）4.可信度是对关联规则的准确度的衡量。（ ✘ ）5.给定关联规则AàB，意味着：若A发生，B也会发生。（ ✔ ）6.频繁闭项集可用来无损压缩频繁项集。（ ✔ ）7.关联规则可以用枚举的方法产生。（ ✔ ）8.Apriori算法产生的关联规则总是确定的。（ ✘ ）9.不满足给定评价度量的关联规则是无趣的。（ ✔ ）10.对于项集来说，置信度没有意义。四、5个简答 1.简述关联规则产生的两个基本步骤。答：关联规则产生的两个基本步骤为：①根据给定的支持度从项集中产生频繁项集；②根据给定的置信度从频繁项集中

13、产生关联规则。 2.Apriori算法是从事务数据库中挖掘布尔关联规则的常用算法，该算法利用频繁项集性质的先验知识，从候选项集中找到频繁项集。请简述Apriori算法的基本原理。答：关联规则的产生并不依赖于Apriori算法，Apriori算法用来加速规则的产生过程。Apriori算法的加速过程依赖于这样一个先验原理：“频繁项集的子集是频繁的”。 3.简述Apriori算法的优点和缺点。答：Apriori算法的优点：结构简单、易于理解。 Apriori算法的缺点：产生大量的候选项集，I/O开销较大。 4.针对Apriori算法的缺点，可以做哪些方面的改进？答：Apriori算法的缺点主要是产生的候选项集较多，从而导致I/O开销较大。由此，可以将庞大的数据集划分为可以装进内存的数据块，利用“频繁项集至少在一个分区中是频繁的”原理合并各个数据块产生的频繁项集得到最终的频繁项集。 5.强关联规则一定是有趣的吗？为什么？答：不一定。因为：规则的评价标准有很多，可以是客观的也可以是主观的。另外，强规则也可能是负相关的，即因变量值随自变量值的增大（减小）而减小（增大）的现象。

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？