收藏 分销(赏)

基于特征选择的学位预警方法研究.pdf

上传人:自信****多点 文档编号:639186 上传时间:2024-01-22 格式:PDF 页数:6 大小:1.02MB
下载 相关 举报
基于特征选择的学位预警方法研究.pdf_第1页
第1页 / 共6页
基于特征选择的学位预警方法研究.pdf_第2页
第2页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、高校学生能够顺利获得学位,不仅对其个人就业发展至关重要,也是衡量高校教学质量的重要指标之一。学位预警是教育数据挖掘的重要应用之一,通过学位预警可以尽早地对学生的学业情况进行警示,学生能够及时调整学习状态和方法,同时准确的学位预警也可以为改进教学指导策略提供参考依据。现有的预警模型构建多是基于全部成绩数据,忽略了课程间的冗余性,使得构建的模型精度不足。因此,提出基于 Fisher 特征选择方法构建学位预警模型。利用 Fisher得分对特征进行初步筛选;然后,利用筛选后的特征构建学位预警模型;最后,通过预警模型对获得学位情况进行预测。为检验方法的有效性,在某高校汉语言文学、化学、数学与应用数学等专

2、业真实数据上进行了大量实验。实验结果表明,基于特征选择的学位预警方法具有良好的准确度和实用性,可以为高校学生的学位预警工作提供数据支持。关键词:教育数据挖掘;特征选择;学位预警;支持向量机;成绩预测中图分类号:TP301摇 摇 摇 摇 摇 摇 摇 文献标识码:A摇 摇 摇 摇 摇 摇 文章编号:1673-629X(2023)09-0024-06doi:10.3969/j.issn.1673-629X.2023.09.004Research on Degree Early Warning Method Based on Feature SelectionWANG Na1,LI Jin-song1

3、,PAN Zi-yao2,YAO Ming-hai1*(1.School of Information Science and Technology,Bohai University,Jinzhou 121013,China;2.School of Mathematical Science,Bohai University,Jinzhou 121013,China)Abstract:The successful acquisition of a degree by college students is not only crucial to their personal employment

4、 development,but alsoone of the important indicators to measure the quality of college teaching.Degree early warning is one of the important applications ofeducational data mining.The degree warning can warn students of their degree information as early as possible,student can adjust theirlearning s

5、tate and methods in time.At the same time,accurate degree warning can provide reference for improving teaching guidancestrategies.The existing early warning models are mostly built based on all performance data,which makes the accuracy of theconstructed model is insufficient.Therefore,the degree ear

6、ly warning model based on Fisher feature selection method is proposed.Firstly,Fisher爷s score is used to preliminarily screen the features.Then,the degree warning model is built with the selected features.Finally,the degree obtaining situation is predicted through the early warning model.In order to

7、test the effectiveness of the proposedmethod,a large number of experiments were carried out on the real data of seven majors of Chinese language and literature major,chemistry major,and mathematics and applied mathematics in university.The experimental results show that the proposed degree earlywarn

8、ing method based on feature selection has excellent accuracy and practicality,and can provide data support for the degree earlywarning of college students.Key words:education data mining;feature selection;degree early warning;support vector machines;performance prediction0摇 引摇 言2022 年 10 月 16 日,习近平总

9、书记在中国共产党第二十次全国代表大会上的报告中明确提出“高质量发展是全面建 设社会主义 现代化国 家 的 首 要 任务冶1。推进“高质量发展冶 离不开高质量的人才队伍,所以提升教学质量具有重大的现实意义2。早在2019 年中共中央、国务院印发的中国教育现代化2035中就明确指出,要充分“利用现代技术加快推动人才培养模式改革,实现规模化教育与个性化培养的有机结合冶着力提高教育质量。基于数据挖掘相关理第 33 卷摇 第 9 期2023 年 9 月摇 摇 摇 摇 摇 摇 摇 摇 摇 摇计 算 机 技 术 与 发 展COMPUTER TECHNOLOGY AND DEVELOPMENT摇 摇 摇 摇

10、摇 摇 摇 摇 摇 摇Vol.33摇 No.9Sep.摇 2023论的教育数据挖掘(Educational Data Mining,EDM)可以从各种教育数据中挖掘数据背后的教育规律,并可以为提高教育质量提供数据支撑,已经成为当前教育工作者们关注的焦点3-4。成绩预测或成绩预警作为EDM 的热门研究领域之一,通过构建有效的预测或预警模型预测其学习成绩,发现成绩可能不理想甚至有辍学风险的学生,为教师提供精确的教学指导,为学生改变学习方式提供重要的参考依据,对提高教学质量具有重要的应用价值和现实意义5-6。近年来,国内外学者在成绩预测和成绩预警方面开展了相关研究工作。刘晓雲等人利用多元线性回归方法

11、构建预测高校学生毕业成绩的模型7。Chen 等人基于梯度提升决策树算法、人工神经网络算法和 K-means 算法,构建了一个基于学生行为特征的分析预测平台8。虽然国内外学者已经对成绩预测展开了相关研究,但是随着大数据时代的到来,与学生成绩相关如学生行为记录、学生消费习惯等教育数据变得越来越庞大。因为课程相关性,数据存在冗余信息等原因会影响基于这些数据构建的成绩预测或预警模型的性能。因此,有些学者开始尝试利用特征选择的方法对数据进行筛选。Gitinabard 等人采用特征选择和逻辑回归的方法来预测学生是否退课9。Thaher 等人利用改进的鲸鱼优化算法从学生成绩中选择出有助于构建精准预测模型的特

12、征10。虽然国内外学者已经开展了相关的研究工作,但如何构建更为精准的成绩预测或预警模型仍是关注重点。众所周知,学位能否顺利获得深刻地影响着学生的未来发展11。如果能在大学初期就可以向获得学位存在风险的同学发出预警,就可以督促学生及时改进学习方式,保证其顺利毕业。因此,提出基于特征选择方法构建更为精准的学位预警模型。1摇 相关理论特征选择是为了构建更精准的学习模型而从原始特征中选择出一个特征子集的理论方法。在特征选择的过程中可以有效地去除噪声、冗余等干扰信息,高效地进行维数约简,进而提高学习性能,增加对学习结果的理解12。1.1摇 Fisher 特征选择基于 Fisher 得分的特征选择方法是依

13、据 Fisher 得分来寻找一组具有最好判别能力的特征子集的有监督特征选择方法13。其定义如公式(1)所示:Fj=ny=+1(滋jy=+1-滋j)2+ny=-1(滋jy=-1-滋j)2ny=+1(滓jy=+1)2+ny=-1(滓jy=-1)2(1)其中,ny=+1和 ny=-1分别为正负样本的数量;滋jy=+1和滋jy=-1分别是正负样本第 j 个特征的均值;滓jy=+1和滓jy=-1分别是正负样本第 j 个特征的标准差。Fj值表明第 j 个特征的判别能力越强,Fj值越大,说明该特征越重要。基于 Fisher 的特征选择过程描述如下:输入:训练样本集。其中,X 表示 n 个具有 d 维特征的样

14、本;Q 是全体特征集合。(1)利用 Fisher 算法,计算 d 维特征的 Fisher 得分,并按照得分将 d 维特征由大到小排列,得到新的特征集合 Q;(2)构建特征集 D 为空集,特征维数 d=d,w 为阈值;(3)从特征集 Q中依次选出一个特征构建新的特征子集D=D,Qi,并计算其特征评价函数 f(XD);(4)若 f(XD)-f(XD)w,则更新特征集 D=D,Qi,特征维数 d(d=d-1),特征集 Q=Qi+1,Qd,转步骤(3);(5)若 f(XD)-f(XD)w,即新选入特征无法使评价函数性能进一步提升,则算法结束。输出:选择出的特征集 D。Fisher 特征选择方法通过计算

15、原始特征的重要性得分来进行特征选择,方法简单、直观。因此,为了消除原始课程数据间的冗余信息,采用 Fisher 特征选择方法来为构建的学位预警模型筛选特征信息。1.2摇 支持向量机基于结构风险最小化理论的支持向量机(SupportVector Machine,SVM)算法14是一个高效的有监督分类算法。其核心思想是在特征空间中建构最优分割超平面,使得分类器能够得到全局最优解。对于线性不可分的问题,SVM 使用各种核函数将低维空间线性不可分的数据映射到高维特征空间,达到线性可分的结果。二维数据的 SVM 分类效果如图1 所示,图中最优超平面的方程为:f(x)=wx+b=0摇 摇 摇 摇(2)其中

16、,样本(xi,yi),xi沂Rd,yi沂+1,-1,i=1,2,N,w 是权重向量,b 为尺度因子,权重向量和尺度因子决定了超平面的位置。图 1摇 二维数据的 SVM 分类示意图因 SVM 采用结构风险最小准则来训练分类器,能较好地处理样本特征非线性、维数高等问题,使其具52摇 第 9 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 王摇 娜等:基于特征选择的学位预警方法研究有精准的分类能力15。因此,提出基于 SVM 构建学位预警模型。2摇 基于 Fisher 特征选择的学位预警模型提出的基于 Fisher 特征选择的学位预警模型主要包括数据预处理、模型构建和学分预警三个部分,其算法流程如

17、图 2 所示。考虑到学生成绩样本的特殊性,在数据预处理阶段要确保样本数据的规范化。要对学生成绩进行筛选,例如,删除选择人数较少的课程数据,删除选课较少的学生(如退学、休学等)成绩数据。此外,还要根据公式(3)对数据进行归一化处理。S=SjSjT摇(3)其中,Sj、SjT和 S分别表示第 j 门课成绩、第 j 门课的总分(一般是 100)和归一化后成绩。在模型构建阶段首先利用 Fisher 算法进行特征选择;然后利用选择后的特征构建学位预警模型。在学位预警阶段,首先将测试样本依据特征选择规则得到新的测试样本;然后根据构建好的预警模型判断是否对学生进行学位预警。图 2摇 基于 Fisher 特征选

18、择的学位预警模型流程3摇 实摇 验该文利用某高校 2018 级软件工程专业、化学专业、会计学专业、汉语言文学专业学生的真实成绩构建学位预警模型,通过统计大量的随机实验结果来验证用特征选择的方法构建预警模型的可行性和有效性。3.1摇 实验数据实验数据为某高校开设的包括工学类、理学类、管理学类、文学类在内的软件工程专业、化学专业、会计学专业、汉语言文学专业学生在 1、2、3 学期所获得的非学位课课程成绩和最终的平均学位绩点成绩,并分别对各专业学生成绩进行如下处理:(1)删除选课人数过少(专业人数的 10%)的课程;(2)将格式为“优秀冶“良好冶“中等冶“及格冶和“不及格冶的等级成绩替换为“95冶“

19、85冶“75冶“65冶和“55冶百分制成绩;(3)为了避免不同课程成绩间数量级对实验结果的影响,将学生分数成绩归一化到0,1区间内。最终,利用处理后的 1、2、3 学期非学位课课程成绩和学位绩点成绩构建各专业的学位预警模型,数据情况如表 1 所示。表 1摇 数据情况汇总软件工程化学会计汉语言学生人数349159134266课程总数量60737366学位课总数量15161416实验用课程数量21253227需要给出预警的学生数量1887133.2摇 评价指标该文选用了有效、直观的错误率(ER)作为评价指标,其计算公式如公式(4)所示。此外,由于需要给出预警的样本仅占总样本的 5%,使得正负样本间

20、存在严重的不平衡问题。因此,该文还用查全率(Recall)、查准率(Precision)、错误拒绝率(FRR)和错误接受率(FAR)共同作为评价指标。其中,错误率值越低说明预警模型的预警准确率越高;召回率又被称为查全率,表示需要给出预警的样本被正确给出预警的概率;查准率又被称为精准率,表示被预警模型给出预警的样本中真正需要做出预警的概率。错误拒绝率预警模型判断无需做出预警的样本中实际应该给出预警的概率;错误接受率表示无需给出预警的而被错误做出预警的概率。它们的计算公式分别为:ER=1-TP+TNTP+FN+TN+FP(4)Recall=TPTP+FN(5)Precision=TPTP+FP(6

21、)FRR=FNFN+TN(7)FAR=FPFP+TN(8)其中,TP 和 FN 分别表示预警模型对应该给出学位预警的样本正确做出预警(正确预测)的样本数量和没有做出预警(错误预测)的样本数量;FP 和 TN 分别表示预警模型对无需给出学位预警的样本错误给出预警(错误预测)的样本数量和没有做出预警(正确预测)的样本数量;TP+FN 即正样本的数量,TN+FP 即负样本的数量。3.3摇 实验结果与分析为了确保实验结果的稳定性和证明算法的有效62摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇

22、摇 摇 摇 摇 第 33 卷性,分别对每个专业进行 6 组实验。实验 1 到实验 6分别利用不同的训练样本数量来构建预警模型,6 组实验中分别随机选择总样本的 40%、50%、60%、70%、80%和 90%作为训练集,其余样本数据作为测试集。每组实验都重复 100 次随机选样本,并将多次实验结果的平均值作为最终的统计结果。实验结果如表 2 至表 6 所示。表 2摇 各专业学位预警错误率结果统计训练样本占总样本比例/%方法会计学专业化学专业软件工程专业汉语言文学专业40未特征选择0.200 60.177 20.311 70.184 1特征选择0.134 70.110 30.216 50.115

23、 650未特征选择0.191 40.164 10.305 30.166 7特征选择0.122 50.096 60.200 10.103 760未特征选择0.191 30.154 20.312 70.152 0特征选择0.125 00.074 60.205 40.092 370未特征选择0.172 50.152 00.293 60.150 6特征选择0.091 90.081 00.191 60.085 680未特征选择0.176 70.160 00.285 00.155 4特征选择0.078 30.061 70.174 30.083 890未特征选择0.150 00.141 30.286 30.

24、160 0特征选择0.057 50.050 00.170 60.084 2摇 摇 从表 2 中可以看出,随着训练样本的增加,各专业构建的学位预警模型的错误率普遍呈现下降趋势。其中,基于特征选择的预警模型明显具有更低的预警误差和更高的稳定性。表 3摇 各专业学位预警查全率结果统计训练样本占总样本比例/%方法会计学专业化学专业软件工程专业汉语言文学专业40未特征选择0.736 30.815 60.581 70.887 2特征选择0.845 60.922 80.721 00.942 850未特征选择0.757 90.840 60.605 90.911 2特征选择0.856 40.936 90.745

25、 60.957 760未特征选择0.794 20.850 00.596 10.933 2特征选择0.869 20.952 50.744 60.975 570未特征选择0.827 50.862 00.625 00.937 5特征选择0.916 30.947 00.766 40.973 180未特征选择0.801 70.855 00.630 00.943 3特征选择0.911 70.978 30.782 90.980 090未特征选择0.860 00.867 50.641 30.928 3特征选择0.932 50.965 00.795 00.981 7表 4摇 各专业学位预警查准率结果统计训练样本

26、占总样本比例/%方法会计学专业化学专业软件工程专业汉语言文学专业40未特征选择0.870 50.850 20.755 10.792 2特征选择0.897 80.877 50.834 40.853 250未特征选择0.862 90.855 00.755 10.801 7特征选择0.905 10.889 80.846 60.861 360未特征选择0.852 00.864 30.743 50.810 2特征选择0.901 60.915 70.839 00.867 272摇 第 9 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 王摇 娜等:基于特征选择的学位预警方法研究续表 4训练样本占总样本比

27、例/%方法会计学专业化学专业软件工程专业汉语言文学专业70未特征选择0.856 50.860 80.757 70.810 1特征选择0.922 60.911 60.848 60.883 280未特征选择0.858 10.852 60.785 50.805 6特征选择0.946 10.927 30.870 40.882 990未特征选择0.867 50.865 80.782 80.819 8特征选择0.963 30.948 30.885 90.889 9摇 摇表 5摇 各专业学位预警错误拒绝率结果统计训练样本占总样本比例/%方法会计学专业化学专业软件工程专业汉语言文学专业40未特征选择0.199

28、 20.160 40.335 40.101 4特征选择0.125 50.072 40.239 80.057 450未特征选择0.186 70.141 90.326 70.085 1特征选择0.115 80.057 80.223 10.041 460未特征选择0.162 40.133 10.331 90.066 3特征选择0.108 00.042 20.225 90.024 870未特征选择0.136 70.120 60.312 40.062 1特征选择0.066 40.046 40.205 10.025 480未特征选择0.157 90.117 90.304 50.053 7特征选择0.065

29、 70.016 30.185 30.018 690未特征选择0.100 80.091 70.299 00.068 2特征选择0.044 20.022 50.163 90.015 3表 6摇 各专业学位预警错误接收率结果统计训练样本占总样本比例/%方法会计学专业化学专业软件工程专业汉语言文学专业40未特征选择0.129 50.149 80.244 90.207 8特征选择0.102 20.122 50.165 60.146 850未特征选择0.132 10.145 00.244 90.198 3特征选择0.089 90.110 20.153 40.138 760未特征选择0.148 00.135

30、 70.256 50.189 8特征选择0.098 40.084 30.161 00.132 870未特征选择0.138 50.139 20.242 30.189 9特征选择0.077 40.088 40.151 40.116 880未特征选择0.136 90.132 40.214 50.194 4特征选择0.053 90.072 80.129 60.117 190未特征选择0.117 50.109 20.217 20.180 2特征选择0.031 70.046 70.114 10.110 1摇 摇 从表 3 到表 6 中也同样可以发现,各专业的成绩数据经过特征选择后构建的学位预警模型其查全率

31、和查准率都高于没有进行特征选择的模型;而基于特征选择构建的学位预警模型的错误接受率和错误拒绝率则明显低于没有进行特征选择的模型。综上所述,从表 2 至表 6 中的各项指标的统计结果显示,基于 Fisher 特征选择的学位预警模型具有更低的错误率和更高的稳定性。表明基于特征选择的方法可以选择出更有效的课程来构建更为精准的学位预警模型,其构建模型给出的预警结果更为可信,更有助于学生和教师及时地调整教学方式。4摇 结束语高校扩招政策的连年实施在为提升国内人口素质82摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇

32、摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷的同时,也对现有高校教学管理模型带来了更高的挑战。探索学生学习的一般规律,挖掘和分析学生特征和成绩的关系,构建更为精准的学位预警模型可以更好地提高教学质量,对完善高校学位预警机制有重要的应用价值和现实意义,因此提出基于 Fisher 特征选择的学位预警模型方法。实验结果表明,构建的学位预警模型能更好地从现有成绩数据中挖掘有效信息,使预警模型具有更低的预警误差和更高的稳定性,能够更好地完成学位预警工作。但成绩预测或预警工作不仅会受到前期成绩的单一影响,还可能受到学习背景、行为习惯等因素的影响。因此,成绩预测、预警等工作仍是一个较为复杂的课题,在下一

33、步的研究中将会利用特征选择方法充分挖掘学习背景、学习环境、行为习惯等更多因素,以构建更加精准有效的成绩预测或预警模型。参考文献:1摇 习近平.高举中国特色社会主义伟大旗帜 为全面建设社会主义现代化国家而团结奋斗N.人民日报,2022-10-26(001).2摇 李晓璐.提高教学质量适应继续教育未来发展变化J.渤海大学学报:哲学社会科学版,2017,39(6):152-153.3摇 唐亚伟,秦玉平.基于数据挖掘的分类算法综述J.渤海大学学报:自然科学版,2011,32(4):372-375.4摇ZHANG Yupei,YUN Yue,AN Rui,et al.Educational datami

34、ning techniques for student performance prediction:meth鄄od review and comparison analysisJ.Frontiers in Psychol鄄ogy,2021,12:698490.5摇 姚明海,李劲松,王摇 娜.基于 BP 神经网络的高校学生成绩预测J.吉林大学学报:信息科学版,2021,39(4):451-455.6摇 TOMASEVIC N,GVOZDENOVIC N,VRANES S.An over鄄view and comparison of supervised data mining techniqu

35、esfor student exam performance predictionJ.Computers&Education,2020,143(1):103676.1-103676.18.7摇 刘晓雲,刘鸿雁,李劲松,等.基于多元线性回归的学生成绩预测研究J.计算机技术与发展,2022,32(3):203-208.8摇 CHEN Liyan,WANG Lihua,ZHOU Yuxin.Research on datamining combination model analysis and performance predic鄄tion based on students爷 behav

36、ior characteristicsJ.Mathe鄄matical Problems in Engineering,2022,2022(1):1-10.9摇 GITINABARD N,KHOSHNEVISAN F,LYNCH C F,et al.Your actions or your associates?predicting certification anddropout in MOOCs with behavioral and social featuresC/The 11th international conference on educational data mining(E

37、DM 2018).New York:JEDM、2018:404-410.10 THAER T,ATEF Z,SANA A A,et al.An enhanced evolu鄄tionary student performance prediction model using whaleoptimization algorithm boosted with sine-cosine mechanismJ.Applied Sciences,2021,11(21):10237-10245.11 任摇 鸽,吴摇 猛,汗古丽力提甫,等.基于改进 Apriori 算法的高校课程预警规则库构建J.计算机系统应

38、用,2021,30(7):290-295.12 GAMIE E A,SEOUD S A E,SALAMA M,et al.Multi-di鄄mensional analysis to predict students grades in higher edu鄄cationJ.International Journal of Emerging Technologies inLearning,2019,14(2):4-15.13 王摇 娜,李劲松,姚明海.基于特征子集与特征区分度的生物认证方法J.计算机技术与发展,2020,30(12):51-55.14 VAPNIK V.The nature of statistical learning theoryM.New York:Springer,1995.15 ADMASU Y E,TEKLAY H A.Student performance predic鄄tion with optimum multilabel ensemble modelJ.Journal ofIntelligent Systems,2021,30(1):511-523.92摇 第 9 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 王摇 娜等:基于特征选择的学位预警方法研究

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服