基于编程认知诊断模型的学生表现预测.pdf

资源描述

1、基于编程认知诊断模型的学生表现预测张雨婷,李征,刘勇,吴永豪(北京化工大学信息科学与技术学院,北京100029)通信作者:刘勇,E-mail:摘要:近年来,学生认知诊断是教育数据挖掘领域的重要研究课题,对现代教育的精准反馈有重要的意义.然而,传统的认知诊断模型存在预测准确性低和处理大规模数据时效率低等问题,且现有研究主要围绕传统线下教学展开,缺少针对程序设计教育领域的研究.为了解决上述问题,本文从程序设计教育的特点分析出发,提出了一种基于编程表现的模糊认知诊断模型 P-FuzzyCDF(programming-performance-basedfuzzycognitivediagnosisfr

2、amework).具体来说,为了处理编程题部分正确的情况,该模型首先模糊了学生对知识点的掌握情况.随后,P-FuzzyCDF 将模糊集合理论与教育假设相结合,对学生对问题的掌握情况进行了建模.除此之外,本文还考虑抄袭因素,并最终生成学生在每个问题上的得分.值得注意的是,该模型利用编程教育数据可视化和精确性的特点,对模型中每个部分的参数进行了量化.本文基于真实数据集进行实验,实验结果表明 P-FuzzyCDF 可以实现较高的精度,其中 MAE、MSE 和 RMSE 评估指标的值分别为 0.07、0.09 和 0.01.此外,将 P-FuzzyCDF 与现有经典方法(如 DINA,IRT 和Fuz

3、zyCDF)进行比较时,P-FuzzyCDF 的结果在 MAE、MSE 和 RMSE 等指标上取得了明显优势.关键词:教育数据挖掘;认知诊断;学生表现;在线教育;学生行为特征引用格式:张雨婷,李征,刘勇,吴永豪.基于编程认知诊断模型的学生表现预测.计算机系统应用,2023,32(9):239247.http:/www.c-s- Performance Prediction Based on Cognitive Diagnosis ModelZHANGYu-Ting,LIZheng,LIUYong,WUYong-Hao(CollegeofInformationScienceandTechnolo

4、gy,BeijingUniversityofChemicalTechnology,Beijing100029,China)Abstract:Inrecentyears,studentcognitivediagnosishasbeenanimportantresearchtopicineducationaldatamining,whichisofgreatsignificanceforaccuratefeedbackinmoderneducation.However,traditionalcognitivediagnosismodelshaveproblemssuchaslowpredictio

5、naccuracyandlowefficiencywhendealingwithlarge-scaledata.Moreover,theexistingresearchismainlyfocusedontraditionalofflineteachingandlearning,andmoreresearchisneededinprogrammingeducation.Tosolvetheaboveproblems,aprogramming-performance-basedfuzzycognitivediagnosisframework(P-FuzzyCDF)isproposedfromthe

6、analysisofthecharacteristicsofprogrammingeducation.First,todealwiththecaseofpartiallycorrectprogrammingquestions,themodelfuzzesthestudentsmasteryoftheknowledgepoints.Second,fuzzysettheoryiscombinedwitheducationalassumptionstomodelstudentmasteryofthequestions.Finally,studentsscoresoneachproblemaregen

7、eratedbyconsideringplagiarismfactors.Notably,themodeltakesadvantageofthevisualizationandaccuracyofprogrammingeducationdatatoquantifytheparametersforeachmodelcomponent.Experimentsareconductedbasedonrealdatasets,andtheresultsshowthatP-FuzzyCDFcanachievehighaccuracy,wherethevaluesofMAE,MSE,andRMSEasses

8、smentindexesare0.07,0.09,and0.01,respectively.Inaddition,whencomparingP-FuzzyCDFwithexistingclassicalmethodssuchasDINA,IRT,andFuzzyCDF,theresultsofP-FuzzyCDFaresignificantlybetterthanthesemethodsintermsofMAE,MSE,andRMSE.计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(9):2

9、39247doi:10.15888/ki.csa.009261http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:北京化工大学校级教改项目(2021BHDJGYB16,G-JG-PTKC202107)收稿时间:2023-02-10;修改时间:2023-04-07;采用时间:2023-05-11;csa 在线出版时间:2023-07-14CNKI 网络首发时间:2023-07-17ResearchandDevelopment研究开发239Key words:educationaldatamining;cognitivediagnosis;st

10、udentperformance;onlineeducation;studentbehaviorcharacteristics1引言在大数据时代背景下,教育数据挖掘领域相关研究迅速发展,其目的是从大规模的教育数据中提取有价值的信息.教育数据挖掘的关键任务之一就是利用学生的考试数据进行建模,从而获知学生的潜在认知状态1.其中,认知状态是指学生在学习过程中对所学知识的学习情况.传统的考试评估通常只报告一个笼统的总分或能力分数,而忽略了个体之间存在的认知状态差异.但是即使考试成绩相同的学生,也有可能具有不同的认知状态2.为了解决传统考试评估的缺陷,最新的研究提出了认知诊断模型,该模型能把认知过程与测

11、量手段结合起来,不仅能对学生的整体水平做出评估,同时还可以将学生的认知结构模式化.其利用合适的测量模型对不同的认知结构模式进行诊断,从而定量地考察学生的认知状态与个体差异3.具体来说,认知诊断模型的有效性是通过预测学生表现(predictstudentperformance,PSP)来实现的.此外,PSP 可以进一步应用于许多方向,如个性化的补救建议和教学计划的改进4.由于认知诊断结果具有很强的可解释性,研究人员投入了大量精力来设计合适的认知诊断模型,以提高个性化学习的质量5.目前常见的认知诊断模型可以分为两类:离散型和连续型.离散型认知诊断模型包括 DINA 模型(deter-ministi

12、cinputs,noisyandgate),连续型认知诊断模型包括 IRT 模型(itemresponsetheory).最近,也有许多新的模型被提出,如 FuzzyCDF6,R-FuzzyCDF7和NeuralCDM8.然而,在上述认知诊断模型中仍存在一些限制.首先,现有的认知诊断模型考虑了对客观题和主观题的预测情况,但缺少对这两类题目的细化研究.例如,编程题属于主观题,但是和传统意义上的主观题又存在差异,编程题具有更加严格的约束性和限制性.因此,现有的认知诊断模型在分析编程题时存在精度不足的问题.其次,尽管传统的认知诊断模型在小规模数据环境中具有良好的性能,但是由于收敛速度慢,此类模型在处

13、理大规模数据时的执行效率显著降低.为了解决这些问题,本文提出了一种基于编程表现的模糊认知诊断模型 P-FuzzyCDF(programming-performance-basedfuzzycognitivediagnosisframe-work).具体来说,该模型首先基于学生的潜在特质来模糊化学生对特定知识点的掌握程度.随后,该模型基于编程题掌握知识点越多,分数越高的特性,模糊化了学生对问题的掌握程度.此外,该模型会基于学生由于抄袭而答对题目的情况,生成学生在每道题目上的最终得分.其中,我们使用了学生在校期间的学习数据以及编程数据来分析学生的认知状态,从而得到模型中的重要参数.为了评估提出的方

14、法,本文在 4 个真实的数据集上进行了实验.实验结果表明,本文提出的方法与现有经典方法相比,在保证预测准确性的基础上,减少了时间开销.综上所述,本文的贡献如下.(1)提出了一种基于编程表现的模糊认知诊断模型 P-FuzzyCDF,并将该模型应用在了学生表现预测方面,P-FuzzyCDF 弥补了传统认知诊断模型在程序设计教育领域研究的不足.(2)引入了学生在校期间的编程数据信息,将其应用在 P-FuzzyCDF 中,从而提高模型的准确率.(3)多个数据集上的实验结果表明,本文提出的P-FuzzyCDF 方法优于基准方法.2相关工作本节介绍了现有的几种被广泛应用的认知诊断模型:DINA,IRT,F

15、uzzyCDF(fuzzycognitivediagnosisframework).2.1 DINA 模型DINA 模型是一种典型的离散型认知诊断模型.该模型将学生描述成一个多维的知识点掌握向量,从学生实际作答结果入手进行诊断.DINA 模型简单,参数的可解释性较好,且DINA模型的复杂性不受属性个数的影响9.ij式(1)展示了 DINA 模型定义的学生在问题上的作答情况:ij=Kk=1qjkik(1)计算机系统应用http:/www.c-s-2023年第32卷第9期240研究开发ResearchandDevelopmentijijikikqjkjkij=1ijij=0ij其中

16、,是指学生在问题上的潜在作答情况,是指学生对知识点的掌握情况,是指问题对知识点的考察情况.表示学生已经掌握问题包含的所有知识点;表示答错,学生对问题中的知识点至少有一个没有掌握.QXsjgjsjjgjjDINA 模型联合试题知识点关联矩阵和学生答题情况矩阵对学生进行建模,引入问题参数,.表示学生在掌握了问题所考察的所有知识点的情况下做错的概率;表示学生在并不完全掌握问题所考察的所有知识点下猜对的概率.iij式(2)表示在已知学生的知识点掌握情况的条件下,答对问题的概率:Pj(i)=Pj(Xij=1|i)=g1ijj(1sj)ij(2)Xijij其中,表示学生在问题

17、上的得分情况10.由于 DINA 模型在客观题的预测中准确性高,可解释性强,所以被广泛应用在认知诊断中.但是,DINA模型只能把学生的潜在认知状态分为两类,即完全未掌握(0)或完全掌握(1).这并不符合编程题目需要多级评分的特点,从而使得 DINA 模型在预测学生在编程题的认知状态时的准确性和精度都有所下降11.2.2 项目反应理论abc项目反应理论(IRT)是一种典型的连续型认知诊断模型,被广泛应用在心理学和教育测量领域.IRT 根据学生回答问题的情况,通过对题目特征函数的运算,来推测学生的能力.IRT 的题目参数有:区分度、难度和猜测系数.根据参数的不同,特征函数可分为单参数模型(难度)

18、、双参数模型(难度、区分度)和三参数模型(难度、区分度、猜测参数)等12.式(3)展示了 IRT 的双参数模型:=1/(1+expDa(b)(3)D其中,为学生的学习状态,为学生的潜在特征水平,为经验参数,一般为 1.713.IRT 模型相比于 DINA 模型可以进行多级评分,使用潜在变量来描述一个学生.但是,IRT 模型对测验条件要求较为严格,样本容量要大,被试者的能力分布范围要广,测试题目数量要多,这些条件如果没被满足则会影响其精确性14.2.3 FuzzyCDFFuzzyCDF 模型将模糊理论应用到认知诊断中,可以同时对学生作答客观题和主观题进行诊断,解决了传统认知诊断模型无法有效诊断主

19、观题的问题5.FuzzyCDF 模型假设在客观题作答中,学生要掌握题目所涉及的全部知识点才能掌握题目.而在主观题作答中,学生仅需掌握题目所涉及的部分知识点即表明该学生掌握该题目.在 FuzzyCDF 模型中,学生正确回答客观题和主观题的概率公式分别为式(4)和式(5):P(Xij=1|ij,sj,gj)=(1sj)ij+gj(1ij)(4)P(Xij|ij,sj,gj)=N(X|(1sj)ij+gj(1ij),2)(5)2其中,为主观题得分的方差15.FuzzyCDF 模型相比于传统的认知诊断模型,考虑了客观题和主观题的不同情况,但是缺少对编程题这一特殊类型的题目的考虑.此外,FuzzyCDF

20、模型需要应用采样算法进行参数估计,所以面临着高计算复杂度的问题和需要大量训练数据的问题15.3个性化的模糊认知诊断模型本节将介绍本文提出的基于编程表现的模糊认知诊断模型(P-FuzzyCDF).如图 1 所示,P-FuzzyCDF由 4 个部分组成,自上而下分别是学生的潜在特质、学生对知识点的掌握程度、学生对问题的掌握程度以及预测得到的问题得分.其中,我们使用了学生在校期间的学习数据以及编程数据来分析学生的认知状态,从而得到模型中的重要参数.为了更好地说明,表 1 展示了建模过程中的一些重要的数学符号,P-FuzzyCDF的每个步骤将在第 3.13.4 节中详细说明.3.1 模糊化知识点掌握

21、程度0,1jk本节将展示如何获知学生对特定知识点的掌握情况.在基于 DINA 的认知诊断模型中,其把学生对知识点的掌握程度假设为完全掌握和完全未掌握,该模型适用于只有正确和错误两种选项的客观题目16.然而,在计算机编程课程中,对于仅满足了部分题目要求的编程题,DINA 模型并不适用.因此,为了解决这个问题,P-FuzzyCDF 将模糊集合理论引入认知诊断模型中,从而使二元变量(0 或 1)模糊为之间的连续变量.根据项目反应理论,每一个学生都有一个高阶潜在特质和对知识点的潜在认知程度17.同时,每一个知识点都有一个自身属性(即知识点难度).三者共同影响着学生对知识点的掌握程度.依据在项目反应理论

22、中采用的双参数模型17,本文将学生对知识点的掌握程2023年第32卷第9期http:/www.c-s-计算机系统应用ResearchandDevelopment研究开发241jkk(j)度和定义为:jk=k(j)=1/(1+exp1.7ajk(jbk)(6)jajkbk式(6)表明学生对知识点的掌握程度受到学生的潜在特质()、学生对知识点的辨别力()和知识点的难度系数()的共同作用.其中,1.7 为经验参数,jajkbk能够最小化正态分布函数与逻辑斯谛分布函数的最大差异.此外,为了解决参数估计面临的高计算复杂度和需要大量训练数据的问题,P-FuzzyCDF 利用教育数据以及编程

23、数据精确性的特点,提出了以下 3 个教育假设对,和进行参数估计.潜在特质知识点掌握程度问题掌握程度问题得分情况抄袭概率 pj1 pj2 pjN数据库jjj1j1Rj1Rj2RjNj2jNj2jKajkpjibk学生完成编程作业中图 14 层模糊认知诊断模型的框架表 1一些重要的数学符号数学符号描述jj学生的潜在特质ajkjk学生对知识点的辨别力bkk知识点的难度系数jkjk学生对知识点的掌握情况kk与知识点有关的模糊集的隶属函数jiji学生对编程题的掌握情况pjiji学生在编程题上的抄袭情况Rjiji学生在编程题上的得分情况Qjkik每道编程题包含的知识点假设 1:

24、学生的高阶潜在特质可以由学生当前的学业 GPA 决定.j学生的高阶潜在特质指学生的能力水平,而学生的能力水平一般表现在学生的考试成绩(即 GPA).因此,可以由学生的 GPA 来量化.假设 2:学生对知识点的潜在认知程度可以由含有该知识点的题目的历史通过率决定.ajkajkjk相比于传统的线下教育,在编程教育领域中,教师可以得到详细的学生在编程过程中的学习数据.因此,可以通过具体的计算来量化,即可以通过学生对含有知识点的题目的通过率获得.假设 3:知识点的难度系数可以由教师对知识点的难易程度进行人工评级来决定.bk教师作为知识的传播者对每个知识的都有着很深入的认识,因此,可以通过老师对知识点

25、进行人工评级获得.3.2 模糊化问题掌握程度基于第 3.1 节中模糊化的知识点掌握程度,我们可以进一步模糊化学生对问题的掌握程度(即能够解决问题的概率).在模糊认知诊断模型中,学生对问题的掌握程度受到学生对该问题所需知识点的掌握程度的影响.ji知识点在问题上的相互作用主要分为联结型和补偿型18.联结型是指学生只有掌握了解决问题所需要的全部知识点才能答对问题,补偿型是指学生只要掌握了解决问题所需要的部分知识点就可以获得该题目的部分分数.对于编程题而言,学生掌握的知识点越多,在这道题目上的得分就越高.因此,我们假设知识点对编程题的相互作用是补偿型的.那么学生在这一道题目上的掌握程度就是学生对这道题

26、目所需知识点的掌握程度的并集.学生对编程题的掌握程度为:ji=1kK,qik=1k(j)(7)qikik其中,表示解决问题是否需要掌握知识点,0 表示不需要掌握,1 表示需要掌握.采用标准模糊并运算19,公式为:AB(x)=max(A(x),B(x)(8)3.3 预测学生问题得分由第 3.2 节可以确定学生在问题上的掌握程度.在本节中,考虑了一种例外情况(即学生在作答题目的过计算机系统应用http:/www.c-s-2023年第32卷第9期242研究开发ResearchandDevelopment程中存在抄袭行为),并采用高斯分布预测编程题的分数.在实际答题过程中,学生的题目

27、分数不仅与学生对题目的掌握程度有关,还与学生是否抄袭有关.同时考虑到编程题具有多级评分的需求,将题目的得分划分为 0,1 之间的连续变量来归一化编程题的分数.然后,假设学生在编程题上的得分服从高斯分布,这在研究中被广泛应用6,7,15.结合学生对题目的掌握情况以及抄袭因素可以得到学生的真实作答得分:P(Rji|ji,pji)=N(Rji|pji(1ji),2)(9)Rjijipjipji(1ji)2pji其中,是指学生在编程题上的得分情况,是指学生的抄袭概率.表示学生通过抄袭得到了正确答案.表示题目标准化得分的方差.对于的计算做了以下教育假设.假设 4:学生在一道题目上的抄袭概率可以由学生

28、历史答题的抄袭比率决定.pji在计算机编程教育领域,可以通过在线编程平台获得每个学生在每道题目上的抄袭概率,当抄袭概率大于等于 80%时,学生的抄袭可能性较高.因此,如果学生在一道题目上的抄袭概率大于等于 80%,则假定该学生通过抄袭来回答题目.那么可以由学生抄袭回答题目总数除以学生回答题目总数来得到.3.4 模型总结RjiMNQjkikqjk=1jk(k=1,2,K)jjjkajkkbkjijk(qjk=1)Rjijipjiji为了更好地说明本文提出的 P-FuzzyCDF 模型,使用如图 2 所示的模型图来表示.得分矩阵包括个学生在道编程题上的分数.知识点矩阵表示每道编程题包含的知识点,如

29、果答对编程题需要掌握知识点,那么.学生对知识点的掌握程度取决于学生的潜在特质,学生对知识点的辨别力和知识点的难度系数.学生对编程题的掌握程度由决定.学生在编程题上的得分由和(学生在编程题上的抄袭情况)决定.j=1,2,Mi=1,2,Nk=1,2,KajkjkjiqjkpjiRjibkj图 2P-FuzzyCDF 模型4实验设计为了验证 P-FuzzyCDF 方法的有效性,在真实数据集上设置了对比实验.本节首先在 PSP 任务上,将 P-FuzzyCDF 与基准方法进行对比.其次,使用假设检验验证了 P-FuzzyCDF 方法的有效性.最后,通过案例分析评估预测结果的可解释性.4.1

30、数据集RjiQjkRji0,1Qjk实验数据来自北京化工大学在教学过程中学生与OJ 系统交互所产生的学习行为数据以及教务管理系统中的学生基础数据.如表 2 所示,共包含 4 个数据集,分别来自 4 门编程课程,共有 206 道编程题,总计531 名学生参与.每个数据集中包括了得分矩阵和知识点矩阵.如表 3 所示,得分矩阵每一行代表一个学生,每一列代表一道编程题的得分,得分区间在之间.如表 4 所示,知识点矩阵每一行代表一道编程题,每一列代表编程题考察的知识点.1 表示该题目考察了这个知识点,0 表示该题目没有考察这个知识点.表 2数据集信息汇总项目Python国际化课程程序设计基础ACM/I

31、CPC程序设计竞赛方法与实践数据结构总计题目数量54564551206参与人数2863213227531知识点个数48324758185表 3得分矩阵示例学生题目1题目2题目3学生10.60.90.45学生20.780.50.7学生30.90.730.56表 4知识点矩阵示例题目知识点1知识点2知识点3知识点4题目11011题目20011题目31010 4.2 标签Rji由于在 OJ 系统中学生每道编程题的得分情况只有两种(完全正确和完全错误),只是用 OJ 系统中的得分不符合编程题作为主观题的特性.因此,我们提出了一种计算得分矩阵的方法.Cj首先,根据提交次数与题目是否正确之间的关系来定义编

32、程题的初始分数.如表 5 所示,分为两种情2023年第32卷第9期http:/www.c-s-计算机系统应用ResearchandDevelopment研究开发243况,第 1 种为学生最终完全答对编程题,第 2 种为学生最终答错编程题.S1i=1SMi=0.1dd=(SMiS1i)/MSji=S1i+(M1)d其次,我们根据学生在 OJ 系统中的排名对学生的编程题得分进行二次定义.按照排名顺序将分数定义为等差数列,排名第一的学生分数定义为,排名最后的学生分数定义为,公差为:,其余学生的得分为.Rji=(Cji+Sji)/2最后,通过将上述两个得分加和取平均即可得到学生的最终分数

33、.表 5定义初始分数回答正确/错误提交次数初始分数正确1120.9530.8540.850.7690.610120.5513150.5150.45错误0010.0520.130.1540.2560.25780.39100.35100.4 4.3 评价指标我们使用 3 种不同的指标(即 MAE、MSE 和RMSE)来评估性能.这 3 个性能指标在现有关于认知诊断的研究中被广泛使用15.如式(10)所示,MAE 是预测得分和实际得分之间的绝对差值的平均值,它衡量的是预测误差的大小.MAE 值越小,表示预测误差越小.如式(11)所示,MSE是预测得分与实际得分之差平方的期望值,它可以评价数据的变化程

34、度,MSE 值越小,说明预测模型具有更好的精确度.如式(12)所示,RMSE 是 MSE 的算数平方根,用于指示模型在预测中会产生的误差规模,对于较大的误差,权重较高,RMSE 越小越好.MAE=mj=1|yjyj|/M(10)MSE=mj=1(yjyj)2/M(11)RMSE=vutmj=1(yjyj)2/M(12)4.4 基准方法在实验中考虑了 3 个方法进行对比实验,分别是DINA,IRT 和 FuzzyCDF,它们参数都是通过参数估计算法得到的15.具体描述如下:sjgjsjgjsjgj(1)DINA7:一种经典的离散型认知诊断模型.该模型在给定知识点矩阵的情况下,对学生的认知状态进行

35、建模,结合回答问题时的例外情况(失误因素,猜测因素)预测学生表现.预测得到的学生题目分数仅分为两种情况(1 满分,0 不得分).采用最大期望算法对模型中的参数(,)进行估计.此外,在参数估计时,每一个问题都会有一个失误因素和一个猜测因素.ab abab(2)IRT13:一种经典的连续型认知诊断模型.该模型通过评估学生的潜在特征与题目参数(区分度、难度)来预测学生表现.预测得到的题目分数处于 0,1之间.采用最大期望算法对模型中的参数(,和)进行估计.其中,每一个学生都会有一个潜在特征,每一个问题都会有一个区分度参数和难度参数.absjgjabsjgj(3)FuzzyCDF15:该模型将模糊

36、理论应用到认知诊断中,基于学生的潜在特征,题目参数(区分度、难度)和回答问题时的例外情况(失误因素,猜测因素)预测学生表现.预测得到的题目分数处于 0,1之间.该模型使用蒙特卡罗和马尔科夫链来估计上述参数.在进行参数估计时,训练数据为 80%,测试数据为 20%.同样,每一个学生都会有一个潜在特征,每一个问题都会有一个区分度参数,难度参数,失误因素和猜测因素.4.5 实验结果与分析4.5.1P-FuzzyCDF 模型的有效性为了评估 P-FuzzyCDF 的有效性,使用第 4.1 节描述的数据集,将其与基准方法(如第 4.4 节所述)进行了对比.使用 3 个评价指标来评估 P-FuzzyCDF

37、的有效性:MAE,MSE 和 RMSE.这 3 个评价指标的值越接近0,P-FuzzyCDF 在 PSP 任务上就越准确.表 6 为在不同的数据集上,P-FuzzyCDF 与基准方法的对比实验结果.从表中数据可知,P-FuzzyCDF 的表现优于所有基准方法.具体来说,在程序设计基础数据集中,相比于 DINA,P-FuzzyCDF 在 MAE,MSE 和计算机系统应用http:/www.c-s-2023年第32卷第9期244研究开发ResearchandDevelopmentRMSE 上效果分别提升了 58.8%,55%和 75%.相比于IRT,P-FuzzyCDF 在 MAE,

38、MSE 和 RMSE 上效果分别提升了 58.8%,55%和 75%.相比于 FuzzyCDF,P-FuzzyCDF 在 MAE,MSE 和 RMSE 上效果分别提升了63.2%,62.5%和 83.3%.表 6Python 国际化课程数据集实验结果数据集模型MAEMSERMSEPython国际化课程DINA0.240.290.09IRT0.150.20.04FuzzyCDF0.280.340.11P-FuzzyCDF0.130.170.03程序设计基础DINA0.170.20.04IRT0.170.20.04FuzzyCDF0.190.240.06P-FuzzyCDF0.070.090.01

39、ACM/ICPC程序设计竞赛方法与实践DINA0.20.230.05IRT0.190.220.05FuzzyCDF0.220.270.08P-FuzzyCDF0.110.140.02数据结构DINA0.180.220.05IRT0.170.210.04FuzzyCDF0.230.290.08P-FuzzyCDF0.130.160.03图 3图 6 为 P-FuzzyCDF 与基准方法在每一道编程题上的详细对比.如图 4 所示为程序设计基础数据集下的实验结果,该数据集共包含 56 道题目,与基准方法相比,P-FuzzyCDF 在每一道题目的预测结果上均有显著优势.从图 4图 6 中可以看出,在程

40、序设计基础数据集,ACM/ICPC 程序设计竞赛方法与实践数据集和数据结构数据集上,P-FuzzyCDF 明显优于基准方法.具体来说,P-FuzzyCDF 利用在线编程教育数据精确性的特点,提出了 4 个教育假设进行参数估计,该参数估计方法更符合编程题的特征,因此,相比于基准方法,P-FuzzyCDF 在预测编程题的成绩时表现更好.此外,P-FuzzyCDF 在对学生的学习认知状态的诊断结果为连续变量(即学生对知识点的掌握程度为 0,1 区间内的连续值),而 DINA 模型的诊断结果为离散值(1 表示完全掌握,0 表示完全没有掌握).IRT 模型没有考虑学生对知识点的掌握情况,仅使用一个潜在的

41、连续型数值变量对学生成绩进行表示.FuzzyCDF 模型虽然可以将学生的认知状态表示为连续变量,但缺少对编程题的具体分析,忽略了编程题的自身特点.而 P-Fuzzy-CDF 在预测学生成绩时,考虑了学生在答题时的抄袭因素,使预测结果更接近实际作答结果.因此,相较于传统的认知诊断方法,P-FuzzyCDF 模型不仅提高了预测的准确性还保证了结果的可解释性.10.10.20.3MAE0.40.54DINAIRTFuzzyCDFP-FuzzyCDF7 10131619222528编程题编号(a)MAE(b)MSE(c)RMSE3134374043464952100.10.20.3MSE0.44 7

42、10131619222528编程题编号313437404346495210.20.4RMSE0.64 7 10131619222528编程题编号3134374043464952图 3Python国际化课程数据集的详细实验结果10.050.100.15MAE0.200.254 7 10131619222528编程题编号31343740434649525510.0250.050MSE0.0750.1004 7 10131619222528编程题编号31343740434649525510.10.2RMSE0.34 7 10131619222528编程题编号313437404346495255(a)

43、MAE(b)MSE(c)RMSEDINAIRTFuzzyCDFP-FuzzyCDF图 4程序设计基础数据集的详细实验结果4.5.2假设检验从图 3 中可以看出,在 Python 国际化课程数据集上,P-FuzzyCDF 没有明显的优势.因此,在本节进行了Wilcoxon 符号秩检验20,以验证 P-FuzzyCDF 的竞争力.表 7 显示了上述假设检验在 Python 国际化课程数据集的结果.注意,我们实现了 3 种现有方法,因此我2023年第32卷第9期http:/www.c-s-计算机系统应用ResearchandDevelopment研究开发245们只能对这 3 种方法进行假

44、设检验.我们研究中使用的假设如下:H0:P-FuzzyCDF 和其他方法在 MAE,MSE 和 RMSE 方面没有显著差异.该检验的显著性水平设置为 0.05.表 7 显示,所有 P-value 均低于 0.05,则统计结果导致拒绝零假设.这些结果表明,我们提出的方法与其他方法在 MAE,MSE 和 RMSE 度量方面存在显著差异.需要注意的是,图 4图 6 中展示的结果表明,P-FuzzyCDF 比其他现有方法在评估指标 MAE、MSE、RMSE 上取得了显著的优势,因此可以安全地得出结论,P-FuzzyCDF 可以比基准方法显著获得更好的性能.10.10.20.3MAE47 10 13 1

45、6 19 22 25 28编程题编号31 34 37 40 4310.100.050.15MSE47 10 13 16 19 22 25 28编程题编号31 34 37 40 4310.30.20.10.4RMSE47 10 13 16 19 22 25 28编程题编号31 34 37 40 43(a)MAE(b)MSE(c)RMSEDINAIRTFuzzyCDFP-FuzzyCDF图 5ACM/ICPC程序设计竞赛方法与实践数据集的详细实验结果4.5.3案例分析为了验证 PEP 结果的可解释性,使用了 DINA 和P-FuzzyCDF 给出了一个学生在数据结构数据集上每个知识点的可视化诊断结

46、果的示例.可视化结果如图 7所示,DINA 和 P-FuzzyCDF 都可以获得有意义的诊断结果.但是,DINA 只能区分学生是否掌握了一个知识点(1 完全掌握,0 完全未掌握).而 P-FuzzyCDF 可以得出一个学生对知识点的具体掌握程度.因此,根据诊断结果,学生可以准确地了解自己的优点和不足.老师也可以根据我们的诊断结果给出个性化的教学建议.相比于 DINA 和 P-FuzzyCDF,IRT 方法使用潜在变量来描述一个学生,因此,不能为每个学生提供直观可解释性的结果.另外,虽然 FuzzyCDF也可以给出学生对知识点掌握程度的描述,但是由第 4.5.1 节可知,FuzzyCDF在 PE

47、P 的准确性方面低于 DINA.10.100.150.20MAE0.250.304 7 10 13 16 19 22 25 28编程题编号31 34 37 40 43 46 4910.050.100.15MSE4 7 10 13 16 19 22 25 28编程题编号31 34 37 40 43 46 4910.20.30.4RMSE4 7 10 13 16 19 22 25 28编程题编号31 34 37 40 43 46 49(a)MAE(b)MSE(c)RMSEDINAIRTFuzzyCDFP-FuzzyCDF图 6数据结构数据集的详细实验结果表 7第 4.5.2 节中假设的 P-val

48、ue模型MAEMSERMSEDINA3.82E106.99E104.62E10IRT1.27E034.46E062.15E06FuzzyCDF8.28E118.19E118.29E11DINAP-FuzzyCDF简单乘法秦九韶算法数组有序链表合并0.00.20.40.60.81.0一元多项式的求和递归单链表STL图 7学生在每个知识点上的诊断结果5结论与展望在本文中,设计了一个个性化的模糊认知诊断框架 P-FuzzyCDF,以探索认知诊断模型在编程题上的表现.首先基于模糊集假设模糊化学生对知识点的掌握程度,然后通过模糊集运算模糊化学生对编程题的掌握程度,接下来通过考虑学生抄袭因素来对认知诊断计

49、算机系统应用http:/www.c-s-2023年第32卷第9期246研究开发ResearchandDevelopment进行建模.此外,在 4 个数据集上进行了评估,大量的实验结果表明,P-FuzzyCDF 能够定量的,可解释的分析每个学生的特征,从而获得更好的预测性能.今后,将根据学生量化的学习状态为学生推荐个性化的学习路径和学习活动.参考文献Xu CJ,Zhu GB,Ye J,et al.Educational data mining:DropoutpredictioninXuetangXMOOCs.NeuralProcessingLetters,2022,54(4):288

50、52900.doi:10.1007/s11063-022-10745-51刘淇,陈恩红,朱天宇,等.面向在线智慧学习的教育数据挖掘技术研究.模式识别与人工智能,2018,3(1):7790.2ZhouSQ,TraynorA.Measuringstudentslearningprogre-ssionsinenergyusingcognitivediagnosticmodels.Frontiersin Psychology,2022,13:892884.doi:10.3389/fpsyg.2022.8928843江培超,王川,胡富珍,等.基于阅读认知诊断的学生表现预测.计算机工程与应用,2022,

展开阅读全文