收藏 分销(赏)

CD-CAT中基于SCAD惩罚和EM视角的在线标定方法开发——G-DINA模型.pdf

上传人:自信****多点 文档编号:2561735 上传时间:2024-05-31 格式:PDF 页数:22 大小:1.37MB
下载 相关 举报
CD-CAT中基于SCAD惩罚和EM视角的在线标定方法开发——G-DINA模型.pdf_第1页
第1页 / 共22页
CD-CAT中基于SCAD惩罚和EM视角的在线标定方法开发——G-DINA模型.pdf_第2页
第2页 / 共22页
CD-CAT中基于SCAD惩罚和EM视角的在线标定方法开发——G-DINA模型.pdf_第3页
第3页 / 共22页
亲,该文档总共22页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 心理学报 2024,Vol.56,No.5,670688 2024中国心理学会 Acta Psychologica Sinica https:/doi.org/10.3724/SP.J.1041.2024.00670 收稿日期:2022-09-26*国家自然科学基金项目(62167004,32160203,32300942,31960186和61967009)。通信作者:蔡艳,E-mail:;汪大勋,E-mail:;涂冬波,E-mail: 670 CD-CAT中基于SCAD惩罚和EM视角的 在线标定方法开发G-DINA模型*谭青蓉1,2 蔡 艳1 汪大勋1 罗 芬3 涂冬波1(1江西师范大学

2、心理学院,南昌 330022)(2陆军军医大学医学心理系基础心理学教研室,重庆 400000)(3江西师范大学计算机信息工程学院,南昌 330022)摘 要 G-DINA(the generalized deterministic input,noisy and gate)模型限制条件少,应用范围广,满足大量心理与教育评估测验数据的要求。研究提出一种适用于 G-DINA 等模型的同时标定新题 Q 矩阵与项目参数的认知诊断计算机化自适应测验(CD-CAT)在线标定新方法 SCADOCM,以期促进 CD-CAT 在实践中的推广与应用。本研究分别基于模拟题库以及真实题库进行研究,结果表明:相比传统的

3、 SIE 方法,SCADOCM 在各实验条件下均具有较为理想的标定精度与标定效率,应用前景较好;SIE 方法不适用于饱和的 G-DINA 等模型,其各实验条件下的 Q 矩阵标定精度均较低。关键词 认知诊断计算机化自适应测验,在线标定,Q 矩阵,G-DINA 模型,SCAD 惩罚 分类号 B841 1 引言 如何高效、准确地为被试提供其在所测内容上详细且有价值的诊断信息以满足被试的测验需求?这是近年来心理与教育测量学研究者和实践者都极为关注的问题。在心理评估中,如果测验能快速、准确、高效地为临床心理医生尤其是新手医生提供来访者在某一心理问题上的具体症状表现,帮助临床医生更好地理解心理问题及一些具

4、体症状之间潜在的复杂关系,心理医生可及时地制定有效的预防和干预策略,推进心理治疗进程(如,de la Torre et al.,2018;Tan et al.,2023)。而在教育测评中,如果测验能快速、准确、高效地为教师提供学生掌握和欠缺的具体知识点,教师在课堂上可以重点讲授学生有待提高的知识点,学生也可以针对自己的弱项进行有针对性的学习,从而减轻学生负担,改进教学,提高教学效果(如,Tang&Zhan,2021)。认 知 诊 断 计 算 机 化 自 适 应 测 验(cognitive diagnostic computerized adaptive testing,CD-CAT)正是在这一

5、背景下产生,它包含了近来蓬勃发展的认知诊断(cognitive diagnosis,CD)和计算机化自适应测验(computerized adaptive testing,CAT)两种测量技术的优点,是实现以上测量目标较为理想的选择(Cheng,2009;Lin&Chang,2019;Xu et al.,2016)。认知诊断的迅速发展,很大程度上取决于实践中对于形成性评估(formative assessment)的需求。不同于 仅 提 供 测 验 总 分 的 总 结 性 评 估(summative assessment),认知诊断为每个被试提供属性掌握模式,该模式详细描述了被试在所测概念或内

6、容上的掌握情况,可为测验后的进一步补救干预提供重要参考(de la Torre,2011;Junker&Sijtsma,2001)。CAT因其量身定制与高效的特点而备受研究者与实践者的青睐。CAT根据每个被试的潜在特质水平为其定制一个测验,被试作答项目大多都与其潜在特质水平相匹配,因此CAT可为被试提供更为有效且精确的潜在特质估计值。而CD-CAT同时具备第5期 谭青蓉 等:CD-CAT中基于SCAD惩罚和EM视角的在线标定方法开发G-DINA模型 671 CAT的特点以及认知诊断的功能,它通过“量体裁衣”的个性化测验快速准确地探查被试在所测内容上的优势和不足,可及时为被试提供精细的诊断反馈信

7、息,在提高测验结果准确性的同时极大地减轻了测验参与者的作答负担(Chen et al.,2012;Chen et al.,2015;Lin&Chang,2019;Liu et al.,2013)。这符合“双减”等政策的精神和要求,也较好地满足了当前国家和社会发展的实际需要,有利于促进精准、自适应和个性化的心理与教育测评,以及考试的数字化革新。CD-CAT的有效性依赖于高质量的题库(item bank)。然而,在CD-CAT持续使用一段时间后,题库中的部分题目会变得过时或者丧失功能,这些题目需及时使用新题予以替换以保证测验和题库的质量,也即项目增补(Chen et al.,2012;Chen e

8、t al.,2015;Kang et al.,2020)。具体而言,需要邀请经验丰富的领域专家和心理测量学家根据诊断目的编制新题(即待加入题库但未标定参数的题目),然后估计新题参数,并将其与题库中已有的题目置于同一量尺之上。在线标定(online calibration)技术是CAT中一种有效的项目增补方法,它是指在测验过程中,让被试同时作答新题与旧题(题库中已有的已标定参数的题目),并根据其作答来标定新题参数的过程(陈平,辛涛,2011a)。除可节约资源投入且相同测量模式使得被试作答新题和旧题的动机相同这些优势外,在线标定的另一重要优势是无需复杂的等值技术以用于解决大型题库构建时所面临的测验

9、等值等具有挑战性的难题(Chen et al.,2012;Chen&Wang,2015)。至今为止,在单维计算机化自适应测验(unidimensional CAT,UCAT)以及多维计算机化自适应测验(multidimensional CAT,MCAT)领域中,研究者已提出了多种高效的在线标定方法。如,方法A(Method A;Stocking,1988)、一个EM循环的边际极大似然估计方法(marginal maximum likelihood estimate with one EM cycle,OEM;Wainer&Mislevy,1990)、多个EM循环的边际极大似然估计方法(marg

10、inal maximum likelihood estimate with multiple EM cycles,MEM;Ban et al.,2001)、FFMLE-Method A方法(陈平,2016)、M-Method A方法(Chen et al.,2017)、M-MEM-BME方法(Chen,2017b)等。CD-CAT中可使用在线标定技术标定新题的参数,但有一个问题值得思考,即认知诊断测验中是否需要进行等值,是否有必要使用在线标定技术对新题进行标定?de la Torre和Lee(2010)在研究中指出当模型与数据完全拟合时,决定型输入噪音与门(the deterministic

11、input,noisy and gate,DINA;Junker&Sijtsma,2001)模型的项目参数具有不变性;Bradshaw和Madison(2015),Madison和Bradshaw(2018)也在其研究中指出对数线性认知诊断模型(the log-linear cognitive diagnosis model,LCDM;Henson et al.,2009)和基于LCDM开发的TDCM(the Transition Diagnostic Classification Model)在模型与数据拟合的情况下参数具有不变性。在此条件下,无需通过等值来保证被试参数估计值在同一量尺上。然

12、而,其研究也指出在模型与数据不完全拟合时,难以观察到参数不变性;且即使模型与数据拟合的情况下,参数不变性也会随着标定样本的减少而减弱(Bradshaw&Madison,2015;de la Torre&Lee,2010;Madison&Bradshaw,2018)。这表明参数不变性成立需满足一些必备的条件:如模型与数据完全拟合,标定样本量足够大(如不少于1000),在这些条件下可以不进行等值。但在实际测验情境中,模型与数据完全拟合的情况并不总能得到满足,且在同一次测验中也较难获得足够大的标定样本,这都会导致项目参数估计出现偏差,影响被试的分类准确性和Q矩阵的标定正确性。因此,在CD-CAT题库

13、建设中有必要进行在线标定,这有利于降低项目参数估计偏差等所带来的影响,提高CD-CAT题库和测验的质量。目前,CD-CAT中有关在线标定方法的研究仍然较为薄弱,而且不同于UCAT和MCAT,CD-CAT中标定新题时不仅需要考虑新题项目参数的标定,还需考虑新题Q矩阵的标定。Q矩阵作为认知诊断的核心成分,在大多数情况下是未知的。在实际测验中,Q矩阵一般由领域专家和心理测量学专家共同界定,需要耗费大量的人力和物力资源。另外,由专家界定的Q矩阵容易受专家主观因素的影响造成错误界定,而Q矩阵的错误界定最终影响项目参数估计精度和被试分类准确性(de la Torre&Chiu,2016;Rupp&Temp

14、lin,2008)。因此,新题Q矩阵的标定是CD-CAT中标定新题时不容忽视的一个方面。截至目前,已有部分研究对CD-CAT中新题Q矩阵与项目参数的同时标定进行了探索。例如,陈平 和 辛 涛(2011b)提 出 的 联 合 估 计 算 法(joint estimation algorithm,JEA),Chen等人(2015)提出的SIE(single-item estimation)方法,谭青蓉等人(2021)672 心 理 学 报 第56卷 提出的基于熵的信息增益在线标定方法(Information Gain of Entropy-based Online Calibration Meth

15、od,IGEOCM),以及Tan等人(2022)提出的基于基尼的方法(the Gini-based method)等均为同时标定新题Q矩阵与项目参数的在线标定方法。已有研究表明JEA、SIE、IGEOCM和基于基尼的方法等在DINA模型下具有较为理想的项目标定精度,但在其它模型尤其是适用面更广、限制条件非常少的饱和认知诊断模型(如拓广的DINA模型,即the generalized DINA,G-DINA;de la Torre,2011)下的性能仍有待进一步考察。相比于DINA模型,G-DINA等模型因限制条件少而有着更广的适用范围,能满足心理与教育评估中多数测验数据的要求(de la To

16、rre,2011;de la Torre et al.,2018;Tu et al.,2017;Xi et al.,2020),在实践研究中的应用日益广泛。如心理临床诊断评估中,只要被试符合心理障碍诊断标准中的部分症状便可实现对被试的临床诊断。以网络成瘾为例,精神障碍诊断与统计手册第五版(the 5th edition of the diagnostic and statistical manual of mental disorders,DSM-V)中界定了网络成瘾的9条症状标准,被试符合其中5条及5条以上症状可诊断为网络成瘾。此时,DINA模型显然不适用于此类测验,它假定被试在项目上的作答

17、只受到项目测量的所有属性的交互作用影响,而不受主效应及其它类型的交互作用的影响。如果强行使用该模型来分析整个测验可能导致数据与所用模型的不适配,继而影响诊断结果的可信性和精确性(Hou,2013)。而G-DINA模型则没有这些严格的假设,认为被试的作答可以是由项目测量的各属性的主效应与各种类型的交互效应的共同影响,如果主效应(或交互效应)的系数估计值为0或接近0,则此时主效应(或交互效应)的作用不明显,即此时不存在主效应(或交互效应),但若系数显著不为0,则说明存在主效应(或交互效应),因此G-DINA模型更为灵活,更适合该类测验。然而,及至目前尚未有公开发表的期刊文章研究应用于限制条件少的G

18、-DINA等模型的Q矩阵与项目参数同时性在线标定方法,这在一定程度上限制了CD-CAT在实践中的应用范围,阻碍了CD-CAT在实际测验中的进一步推广。鉴于此,研 究拟引入数据挖掘中SCAD(smoothly clipped absolute deviation penalty,SCAD;Fan&Li,2001)方法选择特征的思路提出一种适用于G-DINA等模型的Q矩阵与项目参数同时性在线标定方法,旨在为 CD-CAT在实践中的进一步推广与应用提供高效准确的方法学支持。2 G-DINA模型及SIE方法简介 2.1 G-DINA模型 已有认知诊断模型中,基于DINA模型拓展而来的G-DINA模型是

19、一个限制条件少,应用范围更广的模型,符合大量心理与教育评估测验数据的要求,在实践中所受到的重视日益增加,越来越多的研究者基于G-DINA模型开发认知诊断测验(如,de la Torre et al.,2018;Tu et al.,2017;Xi et al.,2020)。故研究在G-DINA模型框架下介绍新的在线标定方法并对其进行验证,该新方法同样可以应用于其它认知诊断模型。令测验测量的属性个数为K,qj=(qj1,qjK)为项目j的q向量,是测验Q矩阵的第j行,若被试正确作答项目j需要掌握第k个属性,qjk=1,否则qjk=0;Xij表示被试i在项目j上的作答;c=(c1,c2,cK)表示第

20、c类属性掌握模式,其中ck表示第c类属性掌握模式下的被试是否掌握第k个属性,若掌握了第k个属性,ck=1,否则ck=0。G-DINA模型认为属性掌握模式不同的被试在项目上的正确作答概率并不一致,将被试分为*2jK个类 别,其中*1KjjkkKq表示项目j测量的属性个数。根据所用链接函数的不同,G-DINA模型有不同的数学表达式,其中最为常用的链接函数为对数链接函数(log link function)、logit链接函数(logit link function)和一致性链接函数(identity link function)。而一致性链接函数下的G-DINA模型,是G-DINA模型更为一般化的

21、形式(de la Torre,2011),其数学表达式可写为:*01112111()(1|)jjjjjKcjjcjjjkckkKKKjkkckckckjKkkkkPP X,(1)上式中,*cj 表示基于项目j所测量属性的缩减属性掌握模式,其中*1,2,2jKc。例如,测验共测量3个属性,项目j测量了测验的前两个属性qj=(1,1,0),则*2jK,*=(0,0),(1,0),(0,1),(1,1)Tcj;j0表示项目j的截距参数,也称之为基线概率,指被试未掌握项目j测量的所有属性但在该项目上作答正确第5期 谭青蓉 等:CD-CAT中基于SCAD惩罚和EM视角的在线标定方法开发G-DINA模型

22、673 的概率,其为非负值;jk表示项目j上属性k的主效 应,指被试掌握属性k对被试正确作答该项目概率的增加效应,一般取非负值,值越大说明掌握该属性对于正确作答该项目的贡献越大;jkk表示项目j上属性k和k的交互效应,*12jjK是所有属性的交互效应。文中使用j表示项目j的项目参数向量,G-DINA模型中*0112(1)()(,jjjjjjjjKj KK *12,)jjK。2.2 SIE方法 CD-CAT中已有的同时标定新题Q矩阵与项目参数的方法主要包含了JEA(陈平,辛涛,2011b)、SIE(Chen et al.,2015)、IGEOCM(谭青蓉 等,2021)和基于基尼的方法(Tan

23、et al.,2022)等。其中,JEA方法在项目质量高且样本量大时具有较高的项目标定精度,但其在项目质量较低时的项目标定精度仍有待于进一步提高。而实际测验题库中,可能既包含了质量高的项目,也包含了质量低的项目。如Liu等人(2013)开发的中国大型英语二级测验题库,其项目失误参数(被试掌握了项目测量的所有属性但错误作答该项目的概率)的范围在0.001到0.5之间。在新题的质量较低时,若使用JEA方法来标定新题,可能导致新题的标定精度较低,从而影响整个题库以及测验的质量。另外,理论上IGEOCM和基于基尼的方法可用于DINA模型外的其它认知诊断模型,但该类方法受被试类别数量的影响,DINA模型

24、在每个项目上均将被试区分为两个类别,而G-DINA模型在每个项目上将被试区分为*2jK(*jK表示项目j测量的属性个数)个类别,其在G-DINA等模型下的性能可能并不理想。如G-DINA等模型下,被试类别随项目测量属性个数的增加而增加,而熵的信息增益指标会随着被试类别的增加而增加(李航,2012)。因此,在G-DINA等模型下使用IGEOCM方法标定新题q向量,可能出现属性指定过多的情况。基于以上分析,文中仅详细介绍SIE方法,并将其与新方法进行比较。SIE方法基于DINA模型提出,其在标定新题时考虑了被试属性掌握模式的估计误差,标定新题Q矩阵和项目参数时充分利用被试的属性掌握模式后验分布(C

25、hen et al.,2015)。SIE方法标定新题时包含了Q矩阵标定和项目参数标定两个部分。对于新题Q矩阵的标定,首先基于被试在旧题上的作 答计算作答了新题j的被试的属性掌握模式后验分布。随后,根据被试属性掌握模式后验分布及每种属性掌握模式在q向量为qj的新题j上的正确作答概率计算具有某一特定作答Rij的被试i的后验预测分布:21()(1|)()(|)KijjijjjijcjjccPP RP qqq,(2)其中j表示项目参数向量,DINA模型下包含失误参数sj和猜测参数gj;P(qj,j|c)表示属性掌握模式为c的被试在新题j上的正确作答概率;ij(c)表示作答了新题j的被试i的属性掌握模式

26、为c的后验概率,基于被试i在O个旧题上的作答(Ui,i=1,2,nj)计算获得:112111()()(|)1(|)()(|)1(|)ioioKioioijcOUUcoocoocoOUUcoocooccoPPPP qqqq,(3)上式中,(c)表示属性掌握模式为c的先验概率,P(qo,o|c)表示属性掌握模式为c的被试在旧题o上的正确作答概率,Uio表示被试i在旧题o上的作答。最后,结合被试后验预测分布及其在新题j上的作答Rij构建似然并最大化似然函数来估计新题的q向量,其表达式如下:*1*1argmax(,)argmax(,)1(,)jjjijijjjjjjnRRijjijjiLPPqQqQq

27、qqq,(4)其中,Qj表示新题j所有2K 1种可能q向量的集合。此外,SIE方法使用EM算法来估计新题的项目参数。需注意的是,DINA模型下使用SIE方法标定新题时对于任一的项目参数估计值,需将新题的所有可能q向量代入似然函数以计算所有可能q向量所对应的似然值,在此基础上标定新题的q向量与项目参数。这在DINA模型下是可行的,因为该模型下项目参数的个数不随项目所测属性个数的变化而发生变化,不同q向量所对应的项目参数个数均为2,也即失误参数和猜测参数。但这在G-DINA模型下是难以实现的,因为该模型下项目参数的个数随项目所测属性个数的变化而变化,不同q向量所对应的项目参数个数可能不同。如项目测

28、量2个属性时,项目参数的个数为4;而项目测量3个属性时,项目参数的个数为8。因此,将SIE方法从 DINA模型拓展到G-DINA模型时,对于根据某一q674 心 理 学 报 第56卷 向量估计的项目参数估计值,仅结合该项目参数估 计值及其对应的q向量计算一个似然值。如,基于qj=(1,0,0,1,0)估计的项目参数值,仅将其与qj=(1,0,0,1,0)结合计算似然值,而不与qj=(1,0,0,1,1)等可能的项目q向量结合来计算似然值。对于新题j的所有可能q向量及其各自对应的项目参数估计值,均可以计算一个似然值。若新题的可能q向量个数为8,则可以计算8个似然值,选择最大似然值对应的q向量与项

29、目参数作为新题的q向量与项目参数估计值。除此之外,G-DINA模型下使用SIE方法标定新题时的步骤均与DINA模型一致。3 基于SCAD的在线标定方法(SCADOCM)开发 3.1 SCADOCM开发的基本思想 目前,数据挖掘中多数方法都围绕正则化方法进行,正则化方法是系数收缩方法的一种,通过压缩特征系数来达到特征选择的目的,已成为一种主流的特征选择方法。正则化方法基于惩罚的思想,在目标函数上增加一个惩罚项,使得新目标函数最小化以选择重要特征。SCAD惩罚是一种正则化方法,其在特征选择上具有良好的性能(Fan&Li,2001)。为简化表达,将SCAD惩罚称为SCAD,基于SCAD的对数似然函数

30、可表示为:1()()(|)WwwSCADlnp,(5)其中,()l 表示基于特征构建的回归方程的对数似然函数,若基于特征构建的回归为logistic回归,则其对数似然函数可表示为:1()=()log(1exp()nTTiiiilR DD,(6)其中n表示被试人数,Ri表示被试i在因变量R上的作答,TiD表示被试i在自变量向量集D上的作答向量的转置,表示回归系数向量。1(|)Wwwnp为对数似然函数的惩罚项,W为 自变量向量D的维数,p()为惩罚函数,其形式构造如下:222|,|2(|)=,|2(1)(1),|2apaaaa,(7)和为SCAD函数中需定义数值的两个参数。Fan和Li(2001)

31、建议233.7a,该值在各种特征选择问题中都表现出较好的性能。是一个调整参数(tuning parameter),极大程度地影响SCAD方法的性能(Fan&Li,2001;Fan&Lv,2010;Fan&Tang,2013;Zhang et al.,2010)。Fan和Li(2001)建议=0.7,研究者也提出了不同的参数选择方法,如GCV准则、AIC准则和BIC准则等。BIC准则是较为常用的参数选择方法(Wang et al.,2007;Zhang et al.,2010)。基于SCAD的对数似然函数第一项表示模型拟合,值越小模型拟合越好;第二项是对模型中所包含的自变量个数(模型复杂度)的惩

32、罚,较好地体现了模型拟合与复杂性的权衡。基于SCAD的似然函数可使用局部二次逼近算法(local quadratic approximations,LQA)来估计 (Fan&Li,2001)。LQA算法的特征在于把收敛于0的回归系数估计为0,从而达到简化模型,提高运算效率的目的。新题j的q向量估计可视为一个特征选择问题,将测验测量的所有属性作为待选择的特征,从所有测验属性中选择重要属性作为新题j的测验属性,构建q向量(q向量中新题j的测验属性标记为1,其它属性标记为0)。若项目j测量了某几个属性,则在这些属性上掌握概率更高的被试正确作答项目j的可能性更大,而在这些属性上掌握概率更低的被试正确作

33、答项目j的可能性更小。因此,某一属性的被试掌握概率对被试正确作答的影响越大,说明该属性对于项目来说越重要,反之若某一属性的被试掌握概率对被试正确作答的影响可忽略不计,则说明项目可能未测量该属性。将被试在新题j上的作答数据R视为因变量,被试在每个测验属性上的掌握情况视为自变量(待选特征)构建基于SCAD的对数似然函数,然后最小化该目标函数以选择新题j的测验属性,构建新题q向量。基于该思路,本研究提出基于SCAD的在线标定方法(SCAD-based online calibration method,SCADOCM),该方法使用SCAD方法标定新题的Q矩阵,随后使用EM算法标定新题的项目参数。SC

34、ADOCM标定新题Q矩阵与项目参数的计算公式及其过程详细介绍如下。3.2 SCADOCM中Q矩阵与项目参数标定的算法设计 本节将详细说明如何使用 SCADOCM来估计新题的 q 向量与项目参数。对于新题q向量的估第5期 谭青蓉 等:CD-CAT中基于SCAD惩罚和EM视角的在线标定方法开发G-DINA模型 675 计,首先将新题的q向量估计视为一个特征选择问题,然后通过SCAD构造一个有效可行的估计量。在认知诊断中,被试对新题j的回答取决于他们对属性的掌握程度。一般来说,掌握新题j所测量属性的被试,正确作答新题j的概率更高。反之,如果掌握了第k个属性的被试在新题j上具有更高的正确作答概率,那么

35、新题j极有可能测量了属性k。那么如何才能从测验测量的所有属性中选择显著影响被试正确作答该题的属性呢?SCAD方法作为一种具有众多优良特性的特征选择方法,是一种可行的解决方案。基于测验测量属性以及被试在新题上的作答使用SCAD方法标定新题Q矩阵,首先需构建属性与被试作答间的回归模型。这一步的关键是找到合适的指标来描述考生对属性的掌握程度。被试在测验所测属性上的边际掌握概率可基于CD-CAT过程中被试对旧题的作答估计获得,该指标较好地体现了被试对于属性的掌握程度。被试在某个属性上的边际掌握概率越高,则被试掌握该属性的概率越大。此外,被试在新题j上的作答服从伯努利分布。因此,对于新题j,基于被试在所

36、测属性上的边际掌 握 概 率 及 其 在 项 目 上 的 作 答,可 构 建 如 下logistic回归模型:exp()(1|)1exp()TjTP DRDD,(8)其中,D表示大小为Knj的被试属性边际掌握概率矩阵,表示大小为K1的属性回归系数向量。随后,可基于该回归方程构建对数似然函数,其公式可表达如下:1()(log(1exp()jnTTijiiilR DD,(9)其中Rij表示被试i在新题j上的作答。在公式(9)上增加SCAD,则可构建基于SCAD的对数似然函数如下:1()()(|)WjwwSCADlnp,(10)其中p(|)如公式(7)所示,本研究采用建议的233.7a(Fan&Li

37、,2001),使用BIC准则选择参数。对于某一给定值,BIC指标可计算如下:()2()log()jBICln,(11)其中:0kk 表示不包含截距项的活动集,|表示该活动集的大小。最后,基于BIC准则选择的参数,最小化公式(10)可获得的估计值,其表达式为:argmin()SCAD .(12)若0k,则新题j测量了属性k。例如,K=5,中的第一个元素和第四个元素为非0系数,则新题j的q向量为qj=(1,0,0,1,0)。若对于BIC准则所选择的参数出现=,则选择参数取最小值时所获得的回归系数估计值中最大回归系数所对应的属性作为新题j的测验属性以确保新题j至少测量一个属性。参数的取值区间参考Br

38、eheny和Huang(2011)研究所提方法。SCADOCM中,在使用SCAD方法标定新题的q向量之后,需要根据该q向量来估计其项目参数,具体为采用EM算法来估计新题的项目参数(Chen et al.,2015)。在E步中,首先基于被试i在新题j上的作答Rij计算每个被试的后验分布,其公式如下:1211()=()(|)1(|)()(|)1(|)ijijKijijijcRRijcjjcjjcRRijcjjcjjccPostPPPPqqqq.(13)然后,基于nj个被试在新题j上的作答向量Rj和每个被试属性掌握模式的后验分布,假设nj个被试在新题j上的作答彼此独立,可构建对数边际似然函数如下:2

39、11()()(ln(|)(1)ln(1(|)KjnjjijcijjjcicijjjcLPostRPRPqqq.(14)M步最大化公式(14)以估计新题j的项目参数j。EM算法依次迭代E步和M步直到满足预先设定的收敛标准。3.3 SCADOCM下Q矩阵与项目参数同时标定的基本步骤 SCADOCM同时标定新题Q矩阵和项目参数的具体步骤如下:步骤1:新题q向量估计。对于新题j,基于作答了新题j的被试在每个属性上的边际掌握概率及其在新题j上的作答数据,构建基于SCAD的对数似然函数SCAD(),求解SCAD()以获得新题j的估计q向量。步骤2:新题项目参数估计。将步骤1中的估计q向量作为新题j的真实q

40、向量,基于作答了新题j的被试的属性掌握模式后验分布及其在新题j676 心 理 学 报 第56卷 上的作答,使用SCADOCM中项目参数估计方法估计新题的项目参数。新题j标定完成。步骤3:对于所有待标定的其他新题,重复步骤1和步骤2可获得新题的Q矩阵估计值和项目参数估计值。直到所有新题标定完成则终止。4 研究1:模拟题库下SCADOCM的性能验证及与SIE方法的比较研究 研究1旨在考查模拟题库下SCADOCM在不同标定样本(50、100、500、1000、2000)、属性掌握模式分布(均匀分布、高阶分布、多元正态分布)和项目质量(高质量:Pj(0)(未掌握项目j所测量的任一属性的被试在项目j上的

41、答对概率)和1 Pj(1)(掌握项目j所测量的所有属性的被试在项目j上的答对概率)从U(0.05,0.15)中随机抽取;低质量:Pj(0)和1 Pj(1)从U(0.1,0.3)中随机抽取)下标定新题的效果,并将其与SIE方法进行比较。标定样本指作答了新题j的被试人数,本文采用陈平和辛涛(2011b)及Chen等人(2015)的设定方式即nj=(NZ)/m,其中N为参与CD-CAT的被试总人数,Z为每个被试作答新题的个数,m为待标定的新题个数。本研究共包含5(标定样本)3(属性掌握模式分布)2(项目质量)=30种模拟实验条件,每种实验条件重复实验100次以减少随机误差。4.1 数据生成 4.1.

42、1 被试属性掌握模式生成与题库生成 标定样本共5个水平,nj=50,100,500,1000和2000,被试属性掌握模式分别从均匀分布、高阶分布和多元正态分布MVN(0,)中产生。在均匀分布中,被试的属性掌握模式从所有可能的属性掌握模式中以均匀的概率产生;在高阶分布中,被试i是否掌握第k个属性与被试i的一般潜在能力i有关,能力为i的被试i掌握第k个属性的概率为 100110exp()(1|,)1exp()kikikikkkikP ,(15)其中,0k和1k为结构参数,研究中设置K=5,0=(1,0.5,0,0.5,1),且对所有属性k均有1k=1.5,被试i的能力值从N(0,1)中产生(de

43、la Torre&Chiu,2016)。在01之间生成一个随机数,将基于上式(公式15)计算的概率值与随机数进行比较,若概率值大于随机数,被试i掌握属性k,ik=1,否则被试i未掌握属性k,ik=0(Ma&de la Torre,2020);在多元正态分布中,属性间的相关设置为0.5(Chen,2017a;Chiu,2013)。假设被试i的能力向量为1(,)iiiK,则被试i的属性掌握模式i=(i1,iK)可通过以下公式获得(Chiu,2013):11if 10otherwiseikikkK,(16)其中1是正态分布概率密度的逆函数。题库生成包含Q矩阵的生成和项目参数的生成。题库中共包含300

44、个题目,每个题目最多测量3个属性,且题库中测量1、2和3个属性的项目均设置为100题。测验测量属性的总个数K=5,则共有31种可能的项目q向量,其中测量1个属性的项目q向量个数为5,测量2个属性的项目q向量个数为10,测量3个属性的项目q向量个数也为10。将测量1个属性的5个项目q向量重复20次,测量2个属性的10个项目q向量重复10次,测量3个属性的10个项目q向量重复10次,构成3005的临时测验Q矩阵。项目参数的生成如下所示:项目参数Pj(0)从U(0.05,0.15)和U(0.1,0.3)中随机抽取,Pj(1)从U(0.85,0.95)和U(0.7,0.9)中随机抽取。其他属性掌握模式

45、在新题j上的正确作答概率从U Pj(0),Pj(1)中随机产生并满足单调性条件,掌握属性个数多的被试在题目j上的答对概率大于掌握属性个数少的被试(de la Torre&Chiu,2016)。4.1.2 新题生成 新题生成包括Q矩阵以及项目参数的生成。设置待标定的新题个数m=20,新题Q矩阵是大小为205的矩阵。从上一步模拟的Q矩阵中随机抽取20行以构建新题Q矩阵,新题项目参数的生成与题库项目参数的生成一致。在生成被试属性掌握模式真值及项目参数真值后,根据给定的认知诊断模型计算被试在每个新题上的正确作答概率,将该正确作答概率与01之间的随机数进行比较,如果被试在题目上的正确作答概率大于随机数,

46、则答对题目,否则答错题目。4.2 CD-CAT过程及新题标定 研究使用定长终止规则,每个参与测验的被试均作答20个旧题和5个新题(Z=5)。CD-CAT模拟过程具体如下:测验开始时对于被试的情况一无所知,因此(1)从题库中随机挑选一个项目作为被试的初始作答题;(2)模拟被试在当前项目上的作答,然后基于被试在已选项目上的作答使用香农熵(shannon entropy,第5期 谭青蓉 等:CD-CAT中基于SCAD惩罚和EM视角的在线标定方法开发G-DINA模型 677 SHE;Cheng,2009)选题策略为被试从剩余题库中挑 选最适合的项目作为其下一个作答项目,重复该步骤直到测验长度达到预先指

47、定的标准。SHE选题策略理论基础扎实,具有较高的估计精度,已有同时标定新题Q矩阵和项目参数的研究也表明SHE选题策略下各在线标定方法均具有较好的项目标定精度(谭青蓉 等,2021;张学工,2010;Chen et al.,2015;Tan et al.,2022;Zheng&Chang,2016)。因此,研究选用SHE作为选题策略;(3)使用极大似然(maximum likelihood estimation,MLE)方法估计被试的属性掌握模式。在CD-CAT模拟过程中,随机从待标定的20个新题中抽取5个新题并将其置于被试测验过程的随机位置。CD-CAT测验结束后,基于被试属性边际掌握概率,属

48、性掌握模式后验分布及被试在新题上的作答,分别使用SCADOCM和SIE方法标定新题的Q矩阵和项目参数。4.3 评价标准 标定效率:即平均运行时间(average running time,ART)ART用于评估各在线标定方法的标定效率,其计算如下:1001100rrtART,(17)其中,tr表示第r次重复模拟中,各在线标定方法标定新题所用的时间。ART值越小,说明用于标定新题的方法的效率越高。本文所有实验均在配置为Intel Core i5-8400 2.81GHz,内存20G的计算机上运行,以保证各标定方法的估计效率具有可比性。属性向量正确估计率(attribute vector corr

49、ect estimation rate,AVCER)AVCER用于评估新题Q矩阵的估计精度,其计算公式为:100()()111()100mrrjjrjAVCERImqq,(18)其中,r表示100次重复模拟实验中的第r次重复实验,()rjq表示第r次重复模拟中新题j的q向量估计值,()rjq表示第r次重复模拟中新题j的q向量真值。()()()rrjjIqq为指示性函数,用于评估第r次重复模拟中()rjq是否等于()rjq。AVCER值越大,新题Q矩阵估计精度越高。均方根误差(root mean squared error,RMSE)RMSE指标用于评价新题项目参数的估计精度,其表达式可写为:1

50、00 2()()21111()()1002KmrrjcjcKrcjRMSEPPm,(19)上式中,()()rjcP 和()()rjcP 分别表示第r次重复模拟中属性掌握模式为c的被试在新题j上的正确作答概率估计值和真实值。RMSE值越小,项目参数的估计精度越高。此外,P(0)和1 P(1)参数的RMSE计算公式与公式(19)略有不同,具体如下所示:P(0):100()()2111()()100mrrjjrjRMSEPPm00,(20)1P(1):100()()2111(1()(1()100mrrjjrjRMSEPPm 11.(21)4.4 研究1结果 图1至图3,以及表1分别呈现了模拟题库下S

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服