1、
2025年大学(计算机科学专业)机器学习基础试题及答案
(考试时间:90分钟 满分100分)
班级______ 姓名______
第I卷(选择题 共30分)
(总共6题,每题5分,每题给出的四个选项中,只有一项是符合题目要求的)
1. 以下关于机器学习中监督学习的说法,正确的是( )
A. 监督学习不需要给定训练数据的标签
B. 监督学习的目标是学习一个模型,用于对新数据进行预测
C. 监督学习只能处理分类问题
D. 监督学习不需要进行模型评估
答案:B
2. 在决策树算法中,信息增益是用来( )
A. 选择最优的划分属性
B.
2、计算决策树的深度
C. 评估模型的准确性
D. 确定叶节点的类别
答案:A
3. 支持向量机(SVM)主要用于解决( )
A. 回归问题
B. 聚类问题
C. 分类问题
D. 降维问题
答案:C
4. 下列哪种算法不属于无监督学习( )
A. K均值聚类算法
B. 主成分分析算法
C. 决策树算法
D. 高斯混合模型算法
答案:C
5. 神经网络中的激活函数作用是( )
A. 增加模型的复杂度
B. 对神经元的输入进行非线性变换
C. 提高模型的收敛速度
D. 减少模型的过拟合
答案:B
6. 在梯度下降算法中,步长的选择(
3、
A. 越大越好
B. 越小越好
C. 适中,需要根据具体问题调整
D. 不影响算法收敛
答案:C
第II卷(非选择题 共70分)
(总共4题,第7题10分,第8题20分,第9题20分,第10题20分)
7. 简述机器学习中模型评估的常用指标,并说明其适用场景。(10分)
8. 请详细阐述K均值聚类算法的原理和步骤。(20分)
9. 给定以下数据集:{(1,1),(2,1),(3,2),(4,3),(5,5)},使用决策树算法构建决策树,要求写出具体的划分过程和最终的决策树结构。(20分)
10. 阅读材料:在一个电商平台上,有大量用户的购买行为
4、数据,包括购买的商品种类、购买时间、购买金额等。现在希望通过机器学习算法来预测用户未来可能购买的商品。
问题:请设计一个基于机器学习的解决方案,说明使用的算法类型、数据预处理步骤以及模型训练和评估的方法。(20分)
答案:
7. 常用指标及适用场景:
- 准确率:适用于分类问题,衡量模型正确预测的样本占总样本的比例。
- 召回率:用于关注被正确预测的正例占所有正例的比例,常用于有偏样本的分类。
- F1值:综合考虑准确率和召回率,是两者的调和均值,适用于对准确率和召回率都有要求的情况。
- 均方误差:用于回归问题,衡量预测值与真实值之间的平均误
5、差平方。
- R方值:反映模型对数据的拟合优度,取值范围[0,1],越大表示模型拟合效果越好。
8. K均值聚类算法原理:将n个数据点划分为K个聚类,使得每个数据点属于离它最近的均值(聚类中心)所对应的聚类。
步骤:
- 随机选择K个初始聚类中心。
- 计算每个数据点到各个聚类中心的距离,将数据点分配到距离最近的聚类。
- 重新计算每个聚类的中心,即该聚类中所有数据点的均值。
- 重复步骤2和3,直到聚类中心不再变化或达到最大迭代次数。
9. 首先计算信息增益,以第一个属性x为例,计算信息增益:
数据集的熵:
总样本数n =
6、5,正例数(假设某个类别为正例)m = 3,负例数n - m = 2
熵H(D) = - (3/5) log2(3/5) - (2/5) log2(2/5) ≈ 0.971
以x = 3为划分点,左边子集{(1,1),(2,1)},正例数1,负例数1,熵H(D1) = - (1/2) log2(1/2) - (1/2) log2(1/2) = 1
右边子集{(3,2),(4,3),(5,5)},正例数2,负例数1,熵H(D2) = - (2/3) log2(2/3) - (1/3) log2(1/3) ≈ 0.918
信息增益Gain(D,x) = H(D) - (2/5) H(D1) - (3/5) H(D2) ≈ 0.033
类似计算其他属性的信息增益,选择信息增益最大的属性作为划分属性,不断递归划分,最终得到决策树结构。
10. 算法类型:可以使用分类算法如决策树、支持向量机等。
数据预处理步骤:
- 清洗数据,去除缺失值和异常值。
- 对商品种类等离散数据进行编码。
- 对购买时间等连续数据进行归一化处理。
模型训练:使用训练数据训练所选算法模型。
模型评估:使用测试数据,通过准确率、召回率等指标评估模型性能,根据评估结果调整模型参数或更换算法。