1、
2025年大学人工智能(机器学习基础)试题及答案
(考试时间:90分钟 满分100分)
班级______ 姓名______
第I卷(选择题 共30分)
(总共6题,每题5分,每题只有一个正确答案,请将正确答案填在括号内)
w1. 以下关于机器学习中监督学习的说法,正确的是( )
A. 监督学习不需要给定训练数据的标签
B. 监督学习的目标是让模型学会从输入特征到标签的映射
C. 监督学习只能处理分类问题
D. 监督学习不需要进行模型评估
w2. 在决策树算法中,用于选择划分属性的指标通常是( )
A. 信息增益
B. 基尼系数
2、C. 均方误差
D. 以上都是
w3. 支持向量机(SVM)的主要作用是( )
A. 进行数据降维
B. 寻找数据中的聚类结构
C. 对数据进行分类和回归
D. 生成新的数据特征
w4. 下列哪个算法不属于无监督学习算法( )
A. K-Means算法
B. 线性回归算法
C. 主成分分析算法
D. 高斯混合模型算法
w5. 神经网络中的激活函数的作用是( )
A. 增加模型的复杂度
B. 对神经元的输入进行非线性变换
C. 提高模型的收敛速度
D. 防止模型过拟合
w6. 在机器学习中,交叉验证的主要目的是( )
A. 评估模型的泛
3、化能力
B. 加速模型的训练过程
C. 减少模型的参数数量
D. 提高模型的拟合能力
第II卷(非选择题 共70分)
w7. (10分)请简要阐述机器学习的基本概念,并说明它与人工智能的关系。
w8. (15分)描述K-Means算法的基本步骤,并说明该算法在应用中可能存在哪些问题。
w9. (15分)已知有如下数据集:{(1, 1, 0), (2, 2, 0), (3, 3, 1), (4, 4, 1)},请使用决策树算法对该数据集进行分类,要求写出详细的计算过程。
材料:在某电商平台上,收集了大量用户的购物行为数据,包括购买商品的种类、数量、时间、金额等信
4、息。
w10. (20分)请设计一个基于机器学习的用户购买行为预测模型,说明你选择的算法及理由,并阐述模型的训练和评估过程。
答案:
w1. B
w2. A
w3. C
w4. B
w5. B
w6. A
w7. 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。机器学习是实现人工智能的一种重要手段和方法,通过机器学习算法,
5、让计算机从数据中学习模式和规律,从而实现人工智能的各种任务,如分类、预测、决策等。人工智能包含机器学习,机器学习是人工智能的核心技术之一。
w8. K-Means算法基本步骤:首先随机选择K个聚类中心;然后计算每个数据点到各个聚类中心的距离,将数据点划分到距离最近的聚类中心所在的簇;接着重新计算每个簇内数据点的均值,作为新的聚类中心;重复上述步骤直到聚类中心不再变化或满足终止条件。存在的问题:K值需事先确定,选择不当会影响聚类效果;对初始聚类中心敏感,不同的初始值可能导致不同的聚类结果;对于存在噪声和离群点的数据,聚类效果可能不佳。
w9. 首先计算数据集的信息熵:数据集D中共有4个样本,
6、正例(标签为1)有2个,反例(标签为0)有2个。根据信息熵公式H(D)= - (p(1)log2p(1) + p(¬1)log¬2p(¬1)),其中p(1)=2/4 = 0.5,p(¬1)=2/4 =
0.5,可得H(D)= - (0.5log20.5 + 0.
5log20.5)=1。然后考虑以第一个属性(设为A)进行划分,A有4个取值{1, 2, 3, 4}。当以A=1或A=2划分时,得到的两个子集D1和D2中,正例和反例分布不均匀,信息增益较小。当以A=3划分时,D1={(1, 1, 0), (2, 2, 0)},D2={(3, 3, 1), (4, 4,
1)}。D
7、
1中全是反例,D2中全是正例,信息增益为1 - (0/2 log2(0/2) + 2/2 log2(2/2)) = 1。所以选择属性A=3作为划分属性,得到决策树的第一层节点。接着对划分后的子集继续按照上述方法进行划分,最终得到完整的决策树用于分类。
w10. 可以选择逻辑回归算法。理由是逻辑回归算法简单易懂,计算效率高,对于处理电商平台这种具有大量特征的用户行为数据较为合适,能够快速学习数据中的模式并进行预测。训练过程:将收集到的用户购物行为数据进行预处理,包括数据清洗、特征工程等。然后将数据分为训练集和测试集,使用训练集对逻辑回归模型进行训练,通过不断调整模型参数,使模型在训练集上的损失函数最小化。评估过程:使用测试集对训练好的模型进行评估,计算评估指标如准确率、召回率、F1值等,根据评估结果调整模型参数或选择最优模型。