资源描述
2025年本科大数据管理与应用(大数据挖掘技术)试题及答案
(考试时间:90分钟 满分100分)
班级______ 姓名______
第I卷(选择题 共30分)
答题要求:每题只有一个正确答案,请将正确答案的序号填在括号内。(总共6题,每题5分)
w1. 以下哪种算法不属于有监督学习算法?( )
A. 决策树 B. 支持向量机 C. K近邻算法 D. 聚类算法
w2. 数据挖掘中,用于评估分类模型性能的常用指标不包括( )
A. 准确率 B. 召回率 C. F1值 D. 均方误差
w3. 以下关于关联规则挖掘的说法,错误的是( )
A. 支持度表示项集在数据集中出现的频率
B. 置信度反映了规则的可靠性
C. 提升度大于1表示规则有实际价值
D. 关联规则挖掘只能发现二元关系
w4. 对于频繁项集挖掘,以下哪种数据结构常用于高效存储和查找?( )
A. 哈希表 B. 堆 C. 链表 D. 二叉树
w5. 在数据预处理阶段,对数据进行离散化处理的目的不包括( )
A. 提高算法效率 B. 便于数据可视化 C. 增强模型鲁棒性 D. 降低数据维度
w6. 以下哪种技术可用于处理大数据中的不平衡数据问题?( )
A. 数据采样 B. 特征选择 C. 模型融合 D. 以上都是
第II卷(非选择题 共70分)
w7. 简述数据挖掘的主要任务,并举例说明每种任务在实际中的应用场景。(15分)
w8. 请详细阐述决策树算法的基本原理,并说明其在构建过程中如何进行特征选择。(15分)
w9. 假设你有一个客户数据集,包含客户的年龄、性别、收入、购买频率等信息,目标是预测客户是否会购买某一新产品。请描述你会如何使用支持向量机算法来解决这个问题,包括数据预处理、模型训练和评估的步骤。(20分)
材料:某电商平台收集了大量用户的购物行为数据,包括购买商品种类、购买时间、购买金额等。通过对这些数据进行分析,发现购买某类电子产品的用户往往在购买后还会购买相关的配件产品。
w10. 根据上述材料,请回答以下问题:
(1) 请描述如何从这些数据中挖掘出关联规则,以发现更多类似的产品购买关联关系。(10分)
(2) 假设挖掘出的一条关联规则为:购买手机 -> 购买手机壳,支持度为30%,置信度为80%。请解释这两个指标的含义,并说明该规则是否有实际价值。(10分)
答案:
w1. D
w2. D
w3. D
w4. A
w5. D
w6. D
w7. 数据挖掘主要任务包括分类、回归、聚类、关联规则挖掘等。分类用于将数据划分到不同类别,如预测客户是否流失;回归用于预测数值型目标变量,如预测股票价格;聚类用于将数据分成不同簇,如对客户进行细分;关联规则挖掘用于发现数据中项集之间的关联关系,如超市中商品的关联购买关系。
w8. 决策树算法基本原理是基于信息增益等准则将数据集不断划分,生成树形结构。在构建过程中,通过计算每个特征的信息增益,选择信息增益最大的特征作为当前节点的划分特征,以使得划分后数据的纯度最高,从而更好地区分不同类别。
w9. 首先对数据进行预处理,包括数据清洗、特征工程等。然后将数据集划分为训练集和测试集。使用支持向量机算法在训练集上进行训练,调整参数找到最优模型。最后在测试集上进行评估,通过准确率、召回率等指标评估模型性能。
w10. (1) 首先扫描数据,统计各类商品组合的出现频率,得到频繁项集。然后基于频繁项集生成关联规则,计算支持度和置信度,筛选出有价值的关联规则。(2) 支持度30%表示购买手机且购买手机壳的用户占总用户的比例为30%;置信度80%表示购买手机的用户中购买手机壳的概率为80%。该规则有一定实际价值,可用于电商平台的推荐等。
展开阅读全文