基于特征选择的学生成绩预测方法研究.pdf

资源描述

1、信息技术XINXIJISHU2023年第10 期基于特征选择的学生成绩预测方法研究刘晓雲，刘鸿雁，李劲松”，王冠帮（1.渤海大学研究生学院，辽宁锦州12 10 13；2.渤海大学信息科学与技术学院，辽宁锦州12 10 13）摘要：学习成绩是反映学习效果和教学质量的重要指标，对成绩进行预测可改进学习和教学方法，进而提高教学质量，如何准确地预测成绩已成为教育数据挖掘领域的一个热点研究课题。为提高预测的准确度,提出了基于特征选择的成绩预测方法。首先利用序列前向选择算法对样本数据进行特征选择，从而选出最优特征子集来构建多元线性回归预测模型，再利用模型对成绩进行预测。为检验方法的有效性，在真实数据集上进

2、行了验证，实验结果表明：文中方法具有更高的预测精度，可以为改进教学方法和教学质量提供数据支持。关键词：数据挖掘；特征选择；数据降维；多元线性回归；成绩预测中图分类号：TP3-05；G 42 0D0I:10.13274/ki.hdzj.2023.10.004Research on student scores prediction method based on feature selectionLIU Xiao-yun,LIU Hong-yan,LI Jin-song,WANG Guan-bang(1.School of Education Science,Bohai University,J

3、inzhou 121013,Liaoning Province,China;2.Schoolof Information Science and Technology,Bohai University,Jinzhou 121013,Liaoning Province,China)Abstract:Academic scores is an important indicator to reflect the learning effect and teaching quality,andthe prediction of academic scores can improve the lear

4、ning and teaching methods,thus improving the teach-ing quality.How to accurately predict grades has become a hot research topic in the field of educational da-ta mining.In order to improve the accuracy of prediction,a prediction method based on feature selection isproposed.Firstly,the sequence forwa

5、rd selection algorithm is used to select the features of the sample data,and then the optimal feature subset is selected to construct the multiple linear regression prediction model.Finally,the model is used to predict the results.In order to verify the validity of the method,the experi-ment is carr

6、ied out,and the results show that the method based on feature selection has higher predictionaccuracy and can provide data support for improving teaching methods and teaching quality.Key words:data mining;feature selection;data dimension reduction;multiple linear regression;scores prediction基金项目：教育部

7、产学合作协同育人项目（2 0 2 0 0 2 1510 0 3，2 0 2 10-2085003）；辽宁省教育厅科研项目（WJ2020004，LJ2020003）；辽宁省教学改革项目（10 16 7-6 49,10 16 7-636）；研究生创新基金项目（YJC2021-030）；研究生教育教学改革项目（YJG20210002，YJG 2 0 2 10 0 0 5）作者简介：刘晓雲（1998）,女，硕士研究生，研究方向为现代教育技术研究。文献标识码：A文章编号：10 0 9-2 552(2 0 2 3)10-0 0 17-0 60引言数据挖掘在银行、保险、金融、医疗等领域被广泛应用,都取得了十

8、分惊人的成果。近年来有专家学者试图利用这些方法挖掘教育相关信息，并为提升教育质量提供帮助。其中成绩预测可以督促学生，使学生及时调整自己的学习方法,改变一17 一基于特征选择的学生成绩预测方法研究学习策略，并且使教师及时改进教学方式，所以成绩预测是提升学生成绩的重要方法，它也成为了教育数据挖掘领域的一个热点研究课题。国内外学者在学生成绩预测方面已经展开了相关研究。刘博鹏等人利用学生的行为、个人属性和历史成绩等三个方面数据，根据学生未来不同课程动态进行影响因素的选择，并利用支持向量机对学生成绩进行预警。王婧妍等人分别采用卡方统计分析和随机森林算法对学生成绩数据进行特征选择，发现合理的特征选择能提

9、高学生成绩模型的预测精度2 。虽然国内外学者已经对成绩预测展开了相关研究,但是高维的特征数据中往往存在一些允余特征和噪声数据，这些数据必然影响成绩预测的准确性和算法的预测效率。因此本文提出基于特征选择的学生成绩预测方法。特征选择（Feature Selection）是实现高维数据降维的有效方法3,能对原始特征数据的维度进行优化，去除穴余信息和噪声数据，从而提高预测精度。1相关理论1.1特征选择特征选择是一种高效的数据降维方法,可以有效去除样本数据中的穴余信息和噪声数据。特征选择方法一般被分为过滤式（the filtermodel）、封装式(the wrapper model)和启发嵌入式(th

10、e hy-brid embedded model）三种。过滤式的特征选择以原始特征的重要性作为特征选择的依据，该类方法的特点是方法简单、计算速度快、不依赖于学习算法。封装式特征选择方法通过分类器的分类效果来评价最优特征子集，如遗传算法、模拟退火算法等。启发嵌人式方法在选择最优特征子集的同时完成了分类器的构建，如决策树。同封装式模型一样，启发嵌人式模型方法也考虑了特征子集和分类器间的相互作用，并且比封装式的运算代价更低4-7 。对高维数据进行特征选择可以降低数据维度，提高算法的性能和准确性，为提高成绩预测算法的计算效率和预测精准度，在学生成绩预测算法中采用了过滤式的特征选择方法。一18 一一刘晓

11、雲等1.2线性回归分析回归分析是数据统计领域常用的一种数据分析方法,回归分析模型可分为线性回归模型和非线性模型8-9。当变量之间的关系呈线性关系时称之为线性回归模型，否则称之为非线性模型。在回归分析中,如果有两个或两个以上的自变量，则称其为多元回归。事实上，一种现象常常是与多个因素相联系的,正如学生的整体学习趋势不仅仅受单科学习成绩的影响,而是由多门课程的成绩及学生的学习环境、教育资源等多因素造成的。由多个变量的最优组合共同来预测因变量，比只用单一变量进行预测更有效，也更符合学生成绩预测的实际情况。因此本文利用多元线性回归模型对学生成绩进行预测。公式（1）给出了一种多元线性回归分析模型。y=o

12、+Bixi+.+,x,+式中，为回归常数;i,2，,为总体回归参数;8 为随机误差,且8 N(0,）。当p=1时,称公式(1）一元线性回归模型,2时,称之为多元线性回归模型。2基于特征选择的成绩预测方法基于特征选择的学生成绩预测方法主要包括数据预处理、特征选择、模型构建、成绩预测四个部分。考虑到样本数据的复杂性，首先对数据样本进行预处理，确保样本数据的规范化。然后是对样本数据进行特征选择，以降低样本数据的特征维度。接下来利用特征选择后的样本特征数据构建成绩预测模型。最后对测试样本进行成绩预测。算法具体流程如图1所示。2.1数据预处理首先对样本数据进行规范化处理，将原始样本数据中学生姓名等基本标

13、签类信息进行编码。然后对样本数据中的成绩数据部分进行标准化，将所有等级制赋分方式标准化为百分制赋分。最后是对突出的噪声数据进行处理，为了使数据结果更具有合理性、普遍性,除去样本数据中的极端学生成绩，即去掉平均成绩大于X+3g或小于X-3的学生（其中X为毕业成绩;为标准差）。将经过上述处理后的课程成绩数据为样本数据。(1)基于特征选择的学生成绩预测方法研究一刘晓雲等学生原始成绩数据预处理一训练样本模型构建坠特征选择训练特征样本段构建预测模型测试样本特特征选择规则模型检验阶盘特征选择段测试特征样本成绩预测结果图1基于特征选择成绩预测模型的总体流程2.2序列前向选择由于学生成绩受多方面的影响，为了提

14、高成绩预测的准确度和预测效率，提出基于特征选择的成绩预测模型。基于序列前向选择算法的特征选择方法是一种自下而上的搜索方法：它从空集出发，每次将能使当前候选子集的评价函数值达到最大的一个或若干个特征添加到当前候选子集中，直到所选择特征数达到指定阈值时结束“-10算法描述：输人：训练样本集。其中,X表示n个具有d维特征的样本；Q是全体特征集合。(1)初始构建特征集Q=Q,D为空集，特征维数d=d,w为阅值；(2)从特征集Q中依次选出一个特征构建新的特征子集D=D,Q,并计算其特征评价函数F(X,)值；（3)筛选出使F(Xp)取得最大值argmaxF(Xp）,且F（X）-F(XD)w的特征Q;(4)

15、更新特征集D(D=D,Q,),特征集Q(Q=Q 1，,Qi-1,Qi+1,Qal),特征维数a(d=d-1);(5)判断是否满足预设终止条件，如d=0,所有特征均无法使评价函数性能提升，即无法满足F（XD）-F（X,）w；（6)若满足终止条件，则结束算法；否则,转步骤（2）。输出：选择出的特征集D。2.3模型构建多元线性回归是分析一个随机变量与多个变量之间线性关系的统计方法。假设回归方程有多个预测变量x（自变量)和一个观测变量y（因变量），在实际应用中,通常得到n组观测数据来估计回归系数,其线性模型为：Ynx1=Xx(p+1)(p+1)xI+8nxl式中,Y为因变量观测值向量;X为自变量观测值

16、矩阵；为总体参数向量；为随机误差向量。本文通过特征选择后的训练样本来构建其毕业成绩的预测模型。首先确定模型的自变量为特征选择后的样本数据，因变量为最终成绩。然后依据自变量和因变量关系，通过训练样本数据构建基于多元线性回归的成绩预测模型。3对比实验3.1实验设计与实验数据为确保实验数据的稳定性和检验算法的有效性，设计了七组实验，实验一到实验六是基于特征选择的成绩预测算法，实验七是没有进行特征选择的成绩预测算法。实验一到实验六分别利用不同的训练样本集来构建预测模型，并使用测试样本集对构建的预测模型进行检验，然后对预测结果进行对比分析。在实验一到实验六中，分别选择51、50、48、43、38、33个

17、样本数据作为训练集，一19 一(2)基于特征选择的学生成绩预测方法研究其余样本数据作为测试集。实验数据选取的是某学校计算机应用专业一年级学生的部分课程成绩。由于部分课程涉及分步培养，为保证实验数据的规范性，对全体样本数据进行了规范化处理，经过数据预处理后的部分实验数据如表1所示，将课程名称用符号代替，如表2 所示。表1部分实验数据解析数学数学高等高等学号几何分析1分析2代数1代数2176.0275.8364.2485.4573.43.2评价指标平均绝对误差(MeanAbsolute Error,MAE)描述的是所有单个观测值与算术平均值偏差绝对值的平均。平均绝对误差由于离差被绝对值化,不会出现

18、正负相抵消的情况，能更好地反映预测值误差的实际情况。因此本文选用简便、直观的平表3特征选择结果X1X2X3X4X5X6X7X8X9X10 x11X12X13X14X15X16X17实验一1实验二1实验三1实验四1实验五1实验六11实验七1注：“1”代表被选中；“0 代表未被选中。从不同训练样本集合的特征选择结果中可以看出：虽然每次实验由于训练样本不同导致最优最小特征子集有细微的差别，但是在六次实验中解析几何（X1）、数学分析2（X3）、高等代数1（X4）、基础物理（X6）、大学生心理健康（X15）均一2 0 一一刘晓雲等符号XIX2X3X4X5X6X766.373.970.963.571.56

19、1.072.778.764.264.60101010101111表2 课程名称课程名称符号解析几何X10数学分析1X11数学分析2X12高等代数1X13高等代数2X14基础物理X15思想道德修养X1674.976.084.675.063.660.091.274.685.790.2101111111111011课程名称体育2英语1英语2计算机基础C语言程序设计大学生心理健康职业生涯与规划X8形式与政策X9体育1均绝对误差作为评估成绩预测模型的预测误差指标，具体计算方法如公式(3)所示1-12 。1MAEN3.3实验结果与分析3.3.1特征选择结果为了更好地去除样本数据中的穴余信息和噪声数据，提高

20、预测模型的精准度，基于不同训练集的样本数据进行特征选择，每组实验的特征选择结果如表3所示。1010010101111X17I Score,-ScorelScore10101010100011被选中了，说明这五门课程对毕业成绩有显著影响。从课程性质来看这些被选中的课程多为学位课和必修课。本次实验对象为计算科学与技术专业的学生，属于数理类的专业，需要培养学生的数理思维、算法设计与分析能力,因此解析几何、数创新创业教育(3)00000000000011000000100011010010001111111110001010000001基于特征选择的学生成绩预测方法研究学分析2、高等代数1等这些数学课

21、程被选中了；未被选中，说明这几门课程对毕业成绩影响不大，对于大学生心理健康这门课程被选中，说明大学符合预期效果。生的心理健康对学习成绩影响很大，学生如果有3.3.2对比预测结果一个积极健康的情绪，可能会更加努力，热爱学分别对6 组不同的训练样本进行训练，建立习,为自己的目标而努力。相反,消极的情绪可能多元线性回归模型，再对相应的测试样本进行测会影响学生的学习状态以及学习兴趣，进而影响试,得到的预测误差结果如表4所示。其中,Res到学生的学习效果。表示未进行特征选择的情况，使用的是全部特征体育1（X9）体育2（X10）、英语1（X11）、英数据;ResFS为进行特征选择的情况，使用的是最语2（X

22、12）、创新创业教育1（X17）为选修课，都优特征子集。表4对比预测结果实验二测试样本数量2res0.0215ResFS0.0191注：数值代表预测误差值。由表4对比预测结果可以看出，在每组实验中,采用特征选择方法的预测误差明显都低于未进行特征选择的方法。这也表明特征选择可以有效去除样本数据中影响成绩预测的穴余信息和噪声数据,基于特征选择的预测模型具有更高的预测准确性，可以为改进教学方案提供指导性意见，有助于提高学校的教学质量和学生的学习效果。3.3.3单次实验结果与分析为了更加清楚地展现实验结果，分别选用上述六种实验的某一次实验结果进行具体分析，以实验四为例。未加特征选择。线性回归方程如公式

23、(4)所示：Y=2.205+0.105X,+0.141X,+0.125X,+0.144X4+0.082X,+0.070X。+0.0 0 4X,+0.0 40 Xg +0.057X,+0.047X1o+0.086Xl1+0.013Xi2+0.060X13+(-0.009)X14+(-0.022)Xis+0.004X1c+0.022X17(4)测试样本的预测结果如表5所示，平均误差为 1.48 6%。XI自变量解析几何数学分析2高等代数1高等代数2基础物理形势与政策计算机基础一刘晓雲等三四350.01960.01980.01750.0177表6 实验四最优特征子集X3X4五10150.02030.

24、02180.01730.0177表5实验四Res实际值与预测值对比表四年最终差值测试样本预测值平均分(绝对值)183.74284.10386.86486.27586.07677.66778.39887.11976.181080.23平均值82.66加人特征选择。将四年成绩总体平均成绩作为因变量，最优特征子集为模型的自变量,最优特征子集如表6所示。X5X6六200.02190.018383.580.1683.120.9884.981.8885.920.3585.480.5975.572.0976.681.7185.251.8674.221.9679.690.5481.451.21X8X13平均值

25、0.02080.0179误差(%）0.1871.1632.1670.4110.6862.6932.1782.1332.5680.6731.486X15大学生心理健康一2 1基于特征选择的学生成绩预测方法研究经过最优特征子集训练得到的线性回归方程如公式(5)所示：Y=16.741+0.189X,+0.144X,+0.202X4+0.128X,+0.106X。+(-0.0 0 5)X+0.0 14X13+0.008X15(5)预测结果如表7 所示。预测差值最高不超过1分，平均误差为0.8 6 1%,预测性能精度高。表7 实验四ResFs实际值与预测值对比表四年最终测试样本平均分183.74284.

26、10386.86486.27586.07677.66778.39887.11976.181080.23平均值82.66通过实验四的实验结果来看，可以发现有特征选择的误差评价值为0.8 6 1%，而无特征选择的误差评价值为1.48 6%。可以很明显地看出用序列前向选择算法进行特征选择的方法和无特征选择的方法相比，在模型预测精度上有很大的提高。4结束语特征选择是一种高效的数据降维方法，可以有效去除样本数据中的?余信息和噪声数据。为了提高学生成绩预测的准确性和算法的计算效率,本文提出了基于特征选择的成绩预测方法。首先，利用特征选择方法对样本数据进行预处理，去除样本数据中的穴余信息和噪声数据，提取最优

27、特征子集。然后，通过最优特征子集构建基于多元线性回归的预测模型。最后，通过预测模型实现对学生成绩的预测。通过特征选择方法得到的样本数据特征，更直观的反映了各种因素对学一刘晓雲等习成绩的影响程度。基于特征选择的成绩预测方法可以对学生未来的学习趋势进行有效预测,预测结果可以为教师改进教学方法和提高学生的学习效率、改进学习方法提供指导性意见。在后续工作中,将会在特征选择方面展开进一步研究,构建具有相关性分析和类别区分度的特征选择方法，并将其融入到成绩预测算法中,进一步提高预测的效率和准确性。参考文献：差值误差预测值（绝对值）83.240.5083.250.8587.861.0086.560.2985

28、.250.8276.730.9377.620.7788.050.9475.850.3380.930.7082.530.711刘博鹏，樊铁成，杨红.基于数据挖掘技术的学生成(%)绩预警应用研究J四川大学学报：自然科学版，0.5972019,56(2):267-272.1.0112王婧妍,张玉飞，徐卓.基于特征选择优化的学生成1.151绩预测J.智库时代,2 0 2 0（1）：12 4-12 5.0.3363唐成华,刘鹏程,汤申生，等.基于特征选择的模糊聚0.953类异常入侵行为检测J.计算机研究与发展，2 0 15，1.19852(3):718-728.0.9824范红星.基于特征选择和Stac

29、king框架的学生学业水1.079平预测研究D.长春：吉林大学,2 0 2 0.0.4335闫政旭,秦超,宋刚.基于Pearson 特征选择的随机森0.872林模型股票价格预测J/OL.计算机工程与应用：10.861-122021-06-28.http:/ 0 2 0,44（12）：17-21.7孙毅，刘仁云，王松，等.基于多元线性回归模型的考试成绩评价与预测J.吉林大学学报：信息科学版，2013(4):75-79.【8 李三川,吴丽丽.基于相关搜索的前向序列特征选择算法J.通信技术,2 0 18,51(12）：2 9 2 0-2 9 2 4.9高万夫.基于序列前向选择策略的过滤算法研究D.长春：吉林大学,2 0 19.10周阳，周炎，周桃，等.基于标准序列浮动前向特征选择的改进算法研究J.计算机测量与控制，2017,25(7):294 297.11尤佳鑫，孙众.云学习平台大学生学业成绩预测与干预研究J.中国远程教育,2 0 16(9）：14-2 0,7 9.12】李晓辉.大数据技术架构下的高维数据挖掘算法分析J.信息技术,2 0 2 1(10):12 2-12 6.（责任编辑：丁玥）一2 2 一

展开阅读全文