收藏 分销(赏)

人工智能方法在探究小学生作业作弊行为及其关键预测因子中的应用.pdf

上传人:自信****多点 文档编号:2698323 上传时间:2024-06-04 格式:PDF 页数:16 大小:1.56MB
下载 相关 举报
人工智能方法在探究小学生作业作弊行为及其关键预测因子中的应用.pdf_第1页
第1页 / 共16页
人工智能方法在探究小学生作业作弊行为及其关键预测因子中的应用.pdf_第2页
第2页 / 共16页
人工智能方法在探究小学生作业作弊行为及其关键预测因子中的应用.pdf_第3页
第3页 / 共16页
人工智能方法在探究小学生作业作弊行为及其关键预测因子中的应用.pdf_第4页
第4页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 心理学报 2024,Vol.56,No.2,239254 2024中国心理学会 Acta Psychologica Sinica https:/doi.org/10.3724/SP.J.1041.2024.00239 收稿日期:2022-07-14*国家自然科学基金项目(32171060)和浙江省教育厅一般科研项目(Y202250508)资助。#赵立和郑怡为共同第一作者 通信作者:赵立,E-mail:;李康,E-mail:kang.leeutoronto.ca 239 人工智能方法在探究小学生作业作弊行为 及其关键预测因子中的应用*赵 立1#郑 怡2#赵均榜3 张 芮1,4 方 方5 傅根跃

2、1 李 康6(1杭州师范大学心理学系;2杭州师范大学经亨颐教育学院,杭州 311121)(3浙江师范大学儿童发展与教育学院,杭州 311231)(4杭州市夏衍小学,杭州 311121)(5北京大学心理与认知科学学院,行为与心理健康北京市重点实验室,北京 100871)(6加拿大多伦多大学,安大略教育研究所,安大略 M5R 2X2)摘 要 小学生作业作弊是心理学领域忽略已久的研究重点,机器学习是数智时代新兴的人工智能科学。笔者对2,098 名 2 至 6 年级小学生进行问卷调查,采用机器学习法,考察个体认知、道德判断、同伴行为,及性别、年级、成绩等因素对小学生作业作弊行为的影响。结果表明:集成机

3、器学习模型对小学生作业作弊预测准确率(AUC 均值)达 80.46%;对作业作弊预测效应最强的 4 个因素依次为个体对作业作弊的接受程度、观察到同伴作弊的普遍性和频率,及其自身成绩。关键词 小学生,诚信,学业作弊,作业作弊,机器学习,预测,同伴行为 分类号 B849:G44 1 引言 学业作弊是古往今来困扰教育工作者的难题。它是指学生为获得理想的学业成绩或排名而采取的秘密且有意破坏学业诚信准则的行为,其重要表现形式之一为作业作弊。虽然自“双减”以来,我国小学生的课业负担明显减轻,但不可否认,较之国外,“作业”依然是我国义务教育阶段小学生最主要的学业任务,作业作弊行为在小学生中仍普遍存在。小学阶

4、段是个体道德意识形成及道德行为习惯塑造的关键期,这一阶段学生做出的作业作弊行为既会导致其学业成绩不佳进而在考试中作弊,久而久之,又容易使其作弊行为习惯化。并且,对儿童期的作弊行为若不重视并加以及时引导和干预,很容易导致个体在成人后表现出更严重的问题行为,如违法乱纪或犯罪(Williams&Williams,2012)。且“双减”政策在强调“减负”的同时,也明确了提高作业质量的需求,并提倡杜绝“唯成绩论”。可以预期,相较于考试成绩,小学生的作业质量等平时学业表现在未来的学业评价体系中可能更为重要。为此,本研究就作业作弊行为在小学阶段的发展及其关键性影响因素进行深入考察,以期为探索作弊的发展机制以

5、及提出有针对性的早期干预方法提供科学依据。在学术界,有关学业作弊的研究已有近百年历史(Hartshorne&May,1928)。纵观现有的实证研究,绝大多数都来自国外,且研究对象几乎全部聚焦于大学生和中学生群体(参见 Anderman&Midgley,2004;Cizek,1999;Hrabak et al.,2004),极少有研究关注小学生群体(Hartshorne&May,1928)。虽然,早在 1928 年,Hartshorne 和 May 的研究就已揭示小学240 心 理 学 报 第56卷 阶段儿童会自发地做出学业作弊行为。但在此之后,因西方教育体制改革导致国外小学阶段的考试和作业一度

6、被取消,故针对小学生作弊的实证研究也一度停滞。与此同时,在研究内容方面,国外学业作弊的研究主要集中于考试作弊(Bong,2008;Freire,2014),针对作业作弊的研究非常少。可以说,到目前为止尚未有研究专门考察过小学生的作业作弊行为。与国外相比,国内有关学业作弊的实证研究起步更晚,且研究对象全部集中于大学生群体(如:舒首立 等,2018;易晓明,2021),针对小学生作弊(尤其是作业作弊)的实证研究尚属空白。虽然有关大学生学业作弊的研究结果可以为小学生作业作弊研究提供一定的思路和借鉴。但与大学生相比,小学生的道德认知发展水平更低,故针对前者的研究结果是否适用于小学生群体尚不明确。鉴于此

7、,本研究将立足我国国情,以国内外现有实证研究结果为基础,重点考察影响当前我国小学生作业作弊行为的可能因素,并从中寻找关键性影响因素。本研究结果旨在为建构儿童诚信行为发展的理论模型,以及道德行为发展理论的完善和本土化提供重要的科学依据。具体说来,本研究将以 2 至 6 年级小学生为研究对象,采用大样本问卷调查法和机器学习(Machine Learning,Pedregosa et al.,2011)相结合的方法,考察小学生作业作弊行为的年级发展趋势,重点分析不同因素对作业作弊的影响及其相对重要性。机器学习是数智时代新兴的数据分析方法,也是人工智能的核心方法,它依赖于计算机算法,旨在通过数据分析和

8、建模实现对人类行为的模拟。近年来,不少心理学研究者已将机器学习应用于诸如情绪(Just et al.,2017)和精神病理学等方面的研究(如 Bartlett et al.,2014;Livieris et al.,2018),也有少数研究者开始将该方法用于儿童研究(Bruer et al.,2019;Zanette et al.,2016)。与传统的统计建模相比,机器学习具有以下 4 个方面的优势。首先,机器学习对原始数据的处理有助于提高最终模型的外部效度。传统分析方法(如,广义线性模型 GLM、广义估计方程 GEE,等等)通常将所有数据统一纳入分析,往往导致模型过度拟合,所获模型的概化能力

9、即外部效度较差。与之不同,机器学习(往往需要较大的样本量)事先将数据分为 3 个子集:训练集(train set)、测试集(test set)和留出集(holdout set)。首先用训练集数据来拟合模型,然后用测试集数据来检验模型。再对这两个子集进行重组,重新随机划分为新的训练集和新的测试集,进行模型拟合和验证。这个过程将重复多次,并产生多个可预测结果变量的模型。最后,用事先预留的留出集数据对这些模型的预测力做进一步评估,即验证这些模型的预测力能否概化到新的数据中。这种验证实现了对模型外部效度的评估(Campbell,1986)。其次,机器学习囊括了多种算法,可被灵活应用于处理各类复杂多变的

10、变量间关系。本研究将采用 近 年 来 广 受 关 注 的 集 成 学 习 法(Ensemble Learning,参见 Ykhlef&Bouchaffra,2017)。该方法首先通过不同机器学习算法对同一样本群体进行训练。具体算法包括描述变量间线性关系的逻辑回归(Logistic Regression,Yarkoni&Westfall,2017),描述 变 量 间 非 线 性 关 系 的 多 层 感 知 机(Multilayer Perceptron,MLP)、极端梯度提升(eXtreme Gradient Boosting,XGBoost)和随机森林(Random Forest)等(参见 G

11、olino et al.,2014)。随后,将所有算法的训练结果整合起来。集成法的优势在于能够集各种算法之长,最大程度上对预测变量和结果变量的关系进行解释,从而使最终模型的预测效果达到最佳。第三,机器学习可通过 Shapley值,量化不同影响因素在整个模型中的相对重要性。Shapley 值于1953 年由诺贝尔经济学奖获得者 Lloyd Shapley 提出(Shapley,1953),主要用于衡量各个预测变量对结果变量的相对贡献大小,是机器学习结果的重要参考指标之一(Smith&Alvarez,2021)。该值越大,代表该预测因素对结果变量的预测力越强;反之,则代表该因素的预测力越弱。若该值

12、趋近于零时,则代表该因素对结果变量几乎不存在有效预测力。最后,机器学习能够将所有预测变量对结果变量的预测效应进行量化,从而创建一个关于结果变量(如“小学生作业作弊的概率”)的预测模型。模型建立后,若将某个学生在相应预测变量上的得分输入模型,即可输出该学生作业作弊的可能性(即作弊的概率)。依据这一结果,能够初步预测学生有多大的可能性会在作业中作弊,以便于教师或家长进行必要的关注,并结合学生的实际表现采取针对性的教育和干预措施。基于上述机器学习的优势,本研究将重点考察部分因素(即预测因素)对小学生作业作弊行为的影响。在影响因素选取方面,由于国内外对小学生作业作弊行为影响因素的研究几乎为空白,故本研

13、究主要参考了 Murdock 和 Anderman(2006)的学业作弊动机模型,以及以往针对大中学生作业作弊行为的研究成果。第2期 赵 立 等:人工智能方法在探究小学生作业作弊行为及其关键预测因子中的应用 241 Murdock和 Anderman(2006)的学业作弊动机模型是目前为止在作弊(尤其是考试作弊)研究领域影响力最大且应用最广的模型之一。该模型整合了一系列以大中学生为主要研究对象的研究成果,从“作弊的代价”、“作弊的目的”及“作弊前对自我和结果的认知(我能做到吗)”三个方面对学业作弊动机进行了划分。其中,“作弊的代价”主要包括作弊后被抓的后果、个体道德水平、同伴作弊的后果、关于诚

14、信的规章制度等等;“作弊的目的”包括同伴压力、智力、课堂氛围等因素;“作弊前对自我和结果的认知”则主要为自我效能及个体对结果的预期(Murdock&Anderman,2006)。依据上述学业作弊动机模型,在综合考虑了研究成果未来在小学中的可实践性和可推广性,同时参考了以往有关大中学生学业作弊的实证研究结果,本研究对可能影响小学生作业作弊行为的因素(即小学生作业作弊的预测因素)进行了筛选,重点包括以下几方面。第一,作弊后果的严重性。一方面,在 Murdock和 Anderman(2006)的学业作弊动机模型中,作弊的后果被看作是学业作弊的主要动机之一。随后更多的实证研究也表明,作弊的后果严重性对

15、大中学生学业作弊行为存在影响(Kam et al.,2017;McCabe&Trevio,1997;Molnar&Kletke,2012)。另一方面是基于实践证据。众所周知,“惩罚”一直被我国教育实践工作者视作防止作弊发生的“最有效/最佳措施”。然而,无论是古时将科举舞弊者量刑入罪,还是如今教育主管部门及各级各类学校制定的针对作弊的处罚制度(如取消考试成绩、取消考试资格、通报批评等),均只针对考试作弊。相较于考试作弊,目前少有学校对学生的作业作弊行为予以重视和深究。这既是因为作业作弊相对不容易被发现,又是由于其频繁性和参与人数可能更高。正是因为作业作弊往往被看成是一种风险极低且无不良后果的违规

16、行为,导致了作业作弊的普遍性和频率往往较高。因此,本研究假设,作弊后果严重性程度是影响小学生作业作弊行为的首要因素。第二,作弊的可接受性。Murdock 和 Anderman(2006)的学业作弊动机模型认为,个体的道德水平是影响学业作弊的另一个重要因素。以往针对大学生和中学生的实证研究表明,个体的道德意识水平影响其对作弊可接受程度的判断(Cheung et al.,2016;Lee et al.,2020),以及他人对作弊接受程度的判断(Ives&Giukin,2020)。错误的判断很可能导致个体美化或弱化学业作弊行为。故本研究假设,个体自身以及他人对作弊的可接受性是影响小学生作业作弊行为的

17、重要因素。第三,小学生对作业作弊预防措施的有效性评价。Murdock 和 Anderman(2006)的学业作弊动机模型指出,学校与诚信相关的规章制度对作弊行为具有一定的影响。这一观点在之后的实证研究中也得到了证实(Ramberg&Modin,2019)。但另一些调查发现,学生对于学校制定的学业诚信政策或许并不十分了解(Bretag et al.,2014;Gullifer&Tyson,2014),这可能是导致学业作弊屡禁不止的潜在原因之一,即相关政策并未发挥应有的约束作用。因此,本研究假设,学生对作弊预防措施的评价,能够有效预测其作业作弊行为。第四,同伴作弊行为。以往在大中学生中开展的实证研

18、究曾表明,观察到同伴做出作弊行为,可能会导致个体对作弊这一行为进行合理化(Jurdi et al.,2011;McCabe et al.,2008),进而影响其自身参与作业作弊行为的概率(Hrabak et al.,2004)。而另一方面,观察到同伴参与作弊行为,也可能使观察者产生“不公平感”,进而更倾向于作弊。故本研究假设,同伴作弊行为能够有效预测小学生的作业作弊行为。除了上述预测变量外,本研究还考察了包括年龄、性别、以及自我报告的自身学业成绩水平等一系列人口统计学或个人背景变量对小学生作业作弊行为的预测作用。其中,以往针对大中学生的研究发现,成绩较差的学生更易为了获得好成绩而参与学业作弊行

19、为(Newstead et al.,1996;zcan et al.,2019),且自我效能感低(即对自身能力认知较差)的学生作弊的可能性也越高(see Murdock&Anderman,2006);而 诸 如 年 龄、性 别 等 人 口 统 计 学 变 量(Bachnio,2019;Cizek,1999;Freire,2014;Jurdi et al.,2011)与个体的学业作弊行为也存在相关。故本研究假设,上述变量对小学生作业作弊行为存在显著预测作用。综上,本研究将采用问卷调查法,结合机器学习技术,考察(1)作业作弊对个体可能造成的后果及其严重性的感知,(2)个体自身及感知到同伴对作业作弊

20、的接受程度,(3)对各种预防作业作弊措施的有效性评价,(4)感知到同伴的作业作弊行为,以及(5)年龄、性别等人口统计学变量对小学生作业作弊行为的影响;在此基础上,构建机器学习模型,采用集成法分析比较上述因素对作业作弊行为的预测效应。242 心 理 学 报 第56卷 2 方法 2.1 被试 本研究事先经过了杭州师范大学学术伦理委员会的伦理审查,并征得了学生所在学校及学生家长的知情同意。在浙江省某地级市选取了 3 所不同类型的小学:普通公办小学(以下简称“公办小学”)、含外来务工人员较多的公办小学(以下简称“民工子弟小学”)及民办小学各 1 所,选择 2 至 6 年级,从每个年级中随机抽取若干班级

21、,进行问卷调查(考虑到 1年级小学生的识字水平和阅读理解能力均十分有限,且其家庭作业很少,故本次调查未将其纳入;张芮,2019)。共计 2300 名小学生参与了本次问卷调查。其中,157 份问卷完成率不足 70%,45 份问卷结果变量相关题目未作答,予以剔除。最终得到有效问卷2098 份。有效样本的平均年龄为 10.04 1.40 岁(男生占 53%),全体学生均为汉族,年级、性别及学校等分布情况见表 1。2.2 研究工具 2.2.1 问卷编制与施测 考虑到国内外尚未有专门针对小学生作业作弊行为的问卷,故本研究采用自编的问卷进行测量,问卷在以往针对大中学生学业作弊的相关研究的基础上编制而成。问

22、卷编制过程分为 3 个阶段。第一阶段是访谈。基于 Lim 和 See(2001)对大学生学业作弊的现状、态度、后果严重性等的问卷调查结果,编制访谈提纲。访谈主要针对学生和教师两类群体开展。在学生层面,访谈内容主要涉及当前小学生作弊(尤其是作业作弊)行为的现状、表现形式及其对作弊的认知和态度等;在教师层面,除上述内容外,访谈还涉及学校、家庭在应对学生作弊问题方面的一些方法和措施,及其所取得的成效。来自上述 3 所小学中的 39 名学生(这些受访学生不再参与后续的正式问卷调查)和 9名教师参与访谈。访谈全程录音,并由两位不知研究目的的心理学硕士生进行转录和编码。访谈结果表明:作业作 弊在 2 年级

23、小学生中就已存在,主要表现为抄标准答案和抄同学作业等;小学生普遍认为的作弊的严重后果主要涉及被老师或家长批评,被同学嘲笑等;其认为能够减少作弊的有效措施主要有努力学习掌握知识点、加大惩罚力度和告知家长等。第二阶段为小范围试测。在访谈的基础上,进一步参考 Bucciol等人(2017)有关大学生学业作弊的研究问卷,编制本研究的初测问卷。在上述 3 所学校,随机选取来自 2 年级、4 年级和 5 年级的共 158名学生(初测被试同样不参与后续的正式问卷调查)进行小范围试测。根据问卷作答情况,结合试测过程中学生的现场反馈,对初测问卷进行修订,并对部分表述不清,难以理解,或有疑问的条目及选项进行了修订

24、和完善。邀请两位心理测量学方面的专家对修改后的问卷进行了审定,最终形成本研究的正式问卷。第三阶段为正式调查。在上述 3 所学校,从 2至 6 年级的各个班级中按一定比例抽取学生进行问卷调查(为保证被试代表性,抽样时确保参与调查学生的学业成绩分布较为广泛)。问卷调查采用一对多的方式,在各个班级内独立进行。问卷现场发放,当场收回。为最大程度地消除学生的顾虑,问卷采用匿名的形式,且问卷发放、填写和回收的整个过程均由研究助理出面组织,班主任或任课教师均未在现场,也未参与整个问卷调查过程。2.3 正式问卷构成 正式问卷主要对两部分内容进行测量。一是研究的关键结果变量作业作弊行为,二是预测变量,即作业作弊

25、行为影响因素,包括个体心理变量和人口统计学变量两个方面。2.3.1 结果变量作业作弊行为(简称“作弊行为”)请作答者就自身“在平时学习中做过类似抄别人的作业/抄答案/让别人帮忙写作业等的行为吗?”,从“1”(从不)到“5”(非常多)进行 5 点利克特量表评分。表 1 2098 名有效被试的部分人口统计学信息情况 年级 年龄(岁)性别 学校 合计 均值 标准差 男 女 普通公办 民工子弟小学 民办小学 2 年级 7.86 0.60 205 192 210 83 104 397 3 年级 8.79 0.40 209 189 200 84 114 398 4 年级 9.79 0.33 209 176

26、 186 85 114 385 5 年级 10.74 0.33 240 211 183 131 137 451 6 年级 11.75 0.34 253 214 155 173 139 467 第2期 赵 立 等:人工智能方法在探究小学生作业作弊行为及其关键预测因子中的应用 243 笔者在后续的数据分析中发现,全体样本对该问题的评分呈明显的正偏态(即评分为“1”的学生比例很高,评分为“2”“5”的学生比例相当且均较低),无法按照近似正态分布处理。为避免统计偏差,遂将结果变量重新编码为二分变量,其中将评分为“1”者编码为“无作弊行为者”,以 0 计;将评分为“2”“5”者编码为“有过作弊行为者”,

27、以 1 计。2.3.2 预测变量(影响因素)的测量(1)对作业作弊行为可能导致后果的严重性评价(简称“后果严重性”)根据访谈结果,列举了 5 种作业作弊行为(Cronbachs 系数为 0.787)可能导致的后果(如“老师批评”等),请作答者就每一后果的严重性程度,从“1”(一点也不严重)到“5”(非常严重)进行 5 点利克特量表评分。(2)对作业作弊行为的可接受性(简称“可接受性”)包括两个条目:a.小学生自身对作业作弊行为的可接受程度(简称“自我可接受性”);b.感知到同伴对作业作弊行为的可接受程度(简称“同伴可接受性”)。请作答者从“1”(完全不能接受)到“5”(完全能接受)进行 5 点

28、利克特量表评分。(3)对能够减少作业作弊行为策略的有效性评价(简称“策略有效性”)根据访谈结果,列举了旨在减少作业作弊行为的 9 种(Cronbachs 系数为 0.781,具有较高的内部一致性)比较常用的策略(如“老师批作业更加仔细,从而找出那些作弊的同学”等),请作答者就每一策略的有效性,从“1”(一点儿也没有用)到“5”(非常有用)进行 5 点利克特量表评分。(4)观察到的同伴的作业作弊行为(简称“同伴作弊行为”)采用 3 个条目进行测量:a.同伴作业作弊行为的普遍性(简称“同伴作弊普遍性”),请作答者就作业作弊行为在周围同学中的普遍性进行“1”(从未见有人这样做过)到“5”(几乎所有人

29、都会做)的 5 点利克特量表评分。b.同伴作业作弊行为的总体频率(简称“同伴作弊总体频率”),请作答者就周围同学做出作业作弊行为的频率进行“1”(从未)到“5”(经常)的 5 点利克特量表评分。c.同伴所采取的不同形式的作业作弊行为的频率(简称“同伴作弊具体频率”),列举了访谈中提及率较高的 3 种作业作弊的具体形式(即做作业时抄答案、抄他人作业、让他人帮忙写作业),请作答者就周围同学做出每一种具体作弊行为的频率,进行“1”(从未)到“5”(经常)的 5 点利克特量表评分。(5)人口学信息 具体包括:学校类型(公办小学、民工子弟小学及民办小学)、年龄、性别、年级(2 至 6 年级)、是否为独生

30、子女以及有关学习成绩的自我评价(自身成绩高于、等于或低于班级平均水平)。2.4 机器学习模型建构 采用 SPSS 24.0 软件分析数据。首先进行描述性统计分析,在此基础上运用机器学习进行统计建模分析。考虑到机器学习算法的多样性,以及预测变量和结果变量间关系的未知性,本研究采用集成学习法,首先通过 4 种不同算法对小学生作业作弊行为的预测模型进行拟合,然后基于 Stacking 法将4 种不同算法的训练结果进行整合。这 4 种算法具体为:逻辑回归、多层感知机(MLP)、极端梯度提升(XGBoost)和随机森林。2.4.1 四种机器学习算法及步骤 逻辑回归是一种广义线性回归,是用逻辑函数解决对分

31、类变量(以二分变量居多)进行预测的问题。多层感知机(MLP)是一种前馈人工神经网络模型,它由输入层、输出层和一个以上的隐藏层组成,每一层均有若干神经元,通过逐步调整神经元间不同连接的权重来拟合模型。极端梯度提升(XGBoost)是集成学习方法中常用的策略,通过不断训练及优化决策树,并将每次训练所得的输出值相加,以获得最终预测值。随机森林算法与 XGBoost 具有一定的相似性,但两者最大的区别在于随机森林的输出值仅仅是简单多数投票的结果,对不同决策树的训练结果也没有做进一步的优化提升。本研究在 MLP 中构建的网络由隐藏层和双曲正切激活函数组成。在训练开始前首先将协变量进行标准化处理,训练过程

32、中则采用共轭梯度下降法(Conjugate Gradient Descent,=0.0000005,=0.00005,区间中心 0,区间偏移 0.5)来调整神经元间连接的权重,以达到将连续训练过程中的预测误差(针对划分至训练集的样本)最小化的目的。该算法还将在每次训练结束时计算测试集中的预测误差,以确保每次训练后预测误差的减少不是由于对训练集数据的过度拟合所致。XGBoost 是将训练过程中的所有模型参数设置为默认,并采用基于树模型(gbtree)的方法进行决策树递增。其中,决策树的 244 心 理 学 报 第56卷 递增数量为 100 棵,(提升学习速率,boosting learning

33、rate)默认值为 0.3,以其作为特征缩减技术(shrinkage)的设定值,同样用于防止训练集数据的过度拟合。此外,用于训练集和测试集的协变量都需预先进行标准化处理。随机森林算法在训练中构建决策树时采用的是自展法(bootstrap)抽样,决策树的数量同样默认为 100 棵,且寻找最佳分割属性时,把需要考虑的特征数量设置为样本特征的平方根。上述两个参数可用于提高预测准确性并防止模型过度拟合。此外,用于训练集和测试集的协变量也预先得到了标准化处理。上述 4 种机器学习算法均包含以下 5 个步骤。第一,将所有数据随机拆分成 3 个独立的数据集:训练集、测试集和留出集(训练集占总被试量的 64%

34、,测验集占 16%,留出集占 20%)。第二,在训练集中对数据进行训练,训练时共有 32 个特征输入。其中22 个特征来自 9 道问卷问题(为表 2 的 8 个问题及其选项,以及学生对学习成绩的自我评价);剩余 10个特征是通过对学校、年级、性别及是否为独生子女等二分变量转换为虚拟变量(哑变量,其中学校的参照水平为普通公办学校,年级的参照为二年级,性别的参照为女,是否为独生子女参照独生子女)而得到。最终输入 32 个特征,通过训练获得第一个模型。第三,将该模型在测试集中进行测试,以获得其性能指标。第四,将训练集和测试集结合起来,重新将这些数据随机划分为新的训练集和测试集,重复第二和第三步,再次

35、训练得到第二个模型。通过重复 100 次第二至第四步的建模过程(“划分训练测验重组划分”),最终可获得 100 个模拟模型,从而确保无论样本被划分到训练集还是测试集,所得结果均能保持一定程度的稳定性。第五,使用最初分配到留出集的数据(此前未参与过任何一次训练或测试)对模型进行最终验证,即进行外部效度的检验。2.4.2 机器学习结果的集成 在采用上述 4 种机器学习算法进行分析的基础上,本研究使用 stacking 法对 4 种算法进行整合(即集成)。具体说来,首先设置逻辑回归、MLP、XGBoost 和随机森林 4 种算法对原始数据进行训练,然后将 4 种算法的训练结果进行整合(stackin

36、g 法设置为五折交叉验证法),最后再对整合后的训练结果进行测试集验证和留出集验证(验证算法设置为逻辑回归),从而实现对 4 种算法的取长补短,获得最终且最佳模型。2.4.3 机器学习模型的关键指标 无论是针对每一种机器学习算法,还是对不同算法结果的集成,采用留出集对最终模型进行验证均可得到模型的两个关键指标。其一为计算机模型的受试者工作特征曲线(Receiver Operating Characteristic,ROC)下方面积(Area under the Curve,AUC)。ROC 和 AUC 是常用于衡量机器学习性能的指标,表现了分类模型的特征。其中,ROC 是通过真阳率(True P

37、ositive Rate,正确预测出的阳性的数量/所有阳性的数量)和假阳率(False Positive Rate,将阴性误判为阳性的数量/所有阴性的数量)绘制而来的曲线(见图 1),AUC 值为 ROC 曲线下方的面积,AUC 越大表明分类器的效果越好,它可以用于评估模型的敏感性(即真阳率,本研究中表现为能够准确预测“存在作业作弊行为”这一情况的比例)和特异性(1假阳率,本研究中表现为能够准确预测“不存在作业作弊行为”这一情况的比例)。敏感性和特异性之间存在着一种函数关系,在不同敏感性条件下,特异性会朝相反的方向变化,而在 ROC曲线的对角线位置将达到两者的最优组合。在实际应用过程中,因具体

38、应用情境不同,在 ROC曲线上以多少的敏感性和特异性作为标准,需要根据实际情况来决定。图 1 计算机模型的受试者工作特征曲线(ROC)描绘了模型敏感性(真阳率)随着特异性(假阳率)变化的规律。曲线下的面积(AUC)表示模型的整体性能,曲线距离恒等式线(虚线对角线)越远,代表模型的分类能力越好,反之则越差。其二为各个预测变量的 Shapley 值。Shapley 值常用于处理复杂分配问题(Shapley,1953)。如 A、B、C 三人共同完成一项工作,在为 A 分配奖金时,若要寻求相对公平,则需通过 Shapley 值法获得 A 在其中的边际贡献。该方法首先需要计算:仅有 A 参与时能够完成的

39、工作量;B 和 C 与 A 合作时所能完成的工作量减去 B/C单人能够完成的工作量;B 和 C 第2期 赵 立 等:人工智能方法在探究小学生作业作弊行为及其关键预测因子中的应用 245 与 A 合作时完成的工作量减去仅 B 和 C 合作时完成的工作量。然后计算这些数值的均值,即为 A 最终的边际贡献。Shapley 值法全面考虑了在所有合作或单人关系中,A所能带来的增益,对 A的边际贡献性进行了公平且科学的计算。正因为此,越来越多的研究者开始借助 Shapley 值法,对预测变量在预测模型中的相对贡献性展开科学评估(Ghorbani&Zou,2019;Lundberg&Lee,2017)。本研

40、究的机器学习中,对各预测变量(影响因素)Shapley 值的计算完全遵循上述计算规则。其中,“A、B、C”即为不同的预测变量,而“工作量”为变量在模型中的贡献性大小,即预测准确性。预测变量的 Shapley 值代表其对总体模型预测准确性的实际边际贡献。通过计算每一个预测变量的 Shapley 值,Shapley 值的大小代表这些预测变量在模型中的相对重要性大小。3 结果与分析 3.1 描述性统计 3.1.1 作弊行为 图 2 显示了 2 至 6 年级小学生自我报告参与过作弊的人数百分比。由图可见,作弊行为的发生率在 3 年级时有了明显的增长,而在 4 年级开始相对趋于稳定。以年级为预测变量(其

41、中设 2 年级为参考组),作弊行为为结果变量,进行二元逻辑回归分析。结果表明,不同年级小学生的作弊率存在显著差异(p 0.001),其中 2 年级的作弊率显著低于其他各年级(2 年级 vs 3 年级:p=0.002,B=0.51,OR=1.67,95%CI=1.212.29;2 年级 vs 4/5/6 年级:ps 0.05)。图 2 26 年级自我报告存在作弊行为的人数百分比 注:*p 0.005,*p 0.001 3.1.2 作弊行为的影响因素 表 2 显示了全体受试者在每个预测变量上的得分均值和标准差。由表可见,小学生普遍认为“受老师惩罚”(M=3.65)是作弊的最严重后果,且作弊是不能被

42、接受的(M=1.81,与 3 代表“中立”相比,p 0.001)。与此同时,他们也倾向于认为周围同伴对作弊的接受程度较低(M=2.13,与 3 相比,p 0.001)。此外,小学生普遍认为“加强课堂练习,在课堂上把知识弄懂”(M=3.28)是减少作弊的最有效策略,“抄他人的作业”(M=2.01)是同伴作弊最常采用的形式。表 2 作弊行为预测变量的描述统计结果 Item MeanSDQ2.后果严重性,15 1.受老师批评 3.051.222.受老师惩罚 3.651.313.受父母批评 3.241.254.受父母惩罚 3.361.305.受周围同学的批评或嘲笑 3.331.48Q3.自我可接受性

43、1.811.12Q4.同伴可接受性 2.131.17Q5.策略有效性,19 1.增加作弊后的惩罚力度 2.891.452.老师批改作业更仔细 2.881.363.加强课堂练习,在课堂上把知识弄懂 3.281.504.老师加强教育,多强调作业作弊属于不良行为 2.471.395.降低作业难度 2.121.396.老师批评或惩罚 2.981.347.给予独立完成作业的同学以表扬和奖励 2.881.428.家长批评或惩罚 2.931.439.做作业时父母监督 2.841.45Q6.同伴作弊普遍性 2.020.88Q7.同伴作弊总体频率 2.080.96Q8.同伴作弊具体频率,13 1.抄他人的作业

44、2.011.052.做作业时抄答案 1.911.043.让他人帮写作业 1.240.61 3.2 机器学习分析 为了更加准确地计算不同变量对小学生作业作弊行为的预测效果,研究仅将预测变量相关问题作答率达到 100%的被试数据纳入机器学习,故最终进入机器学习分析的被试量为 1637。如方法部分所述,本研究在使用 4 种机器学习算法进行分析的基础上,重点对 4 种算法所获结果进行集成。246 心 理 学 报 第56卷 3.2.1 四种机器学习算法及集成学习法所获模型的AUC 均值分析 表 3 显示了 4 种机器学习算法所各自模拟出的100 个模型的 AUC 的均值,以及集成学习所模拟出的 100

45、个最终模型的 AUC 的均值。由表可见,这些AUC 均值均显著高于随机水平(50%,ps 1.2 时表示效应量非常大)。3.2.2 集成学习法所获最终模型中各变量的 Shapley值分析 在集成学习中,采用留出集对最终模型进行检验,得到所有预测变量的 Shapley 均值,这些值均显著高于0(ps 0.05),即所有预测变量皆对该模型具有显著的边际贡献。将这些预测变量按照 Shapley 值的大小进行排列,可直观显示这些预测变量在模型中的相对重要性排序。图 4 列举了对模型预测准确性的边际贡献大于或等于 1%的主要预测变量。这些变量间的相对重要性依然存在较大的差异。根据重要性由高到低可大致将这

46、些预测变量分为以下 4 个组。图 3 四种不同算法及集成学习分别获得的 100 个模型的 AUC 值 第2期 赵 立 等:人工智能方法在探究小学生作业作弊行为及其关键预测因子中的应用 247 图 4 主要预测变量在预测作业作弊行为时的 Shapley 值及其 95%置信区间。其中“”表示该预测变量对结果变量存在负向预测作用;其他预测变量对结果变量均存在正向预测作用。第一组为小学生自身对作弊的接受性(接受性越高,就越有可能作弊)。该预测变量的 Shapley 值高达 10.49%,代表其对总体模型预测准确性的实际边际贡献为 10.49%。配对样本 t 检验结果显示,该变量的 Shapley 值显

47、著高于 3.83%(排序第二的预测变量对应 Shapley 值,t=23.88,df=327,p 0.001),表明其在模型中的预测力最佳且远高于其他变量。第二组变量的 Shapley 值均在 2%4%内。首先是同伴作弊的普遍性,该预测变量的 Shapley 值为3.83%,对模型预测准确性的贡献性显著高于剩余所有变量(vs 3.26%,t=1.98,df=327,p=0.048)。其次是小学生自身成绩在全班同学中所处的相对水平(反向计分)、同伴作弊的频率,以及同伴做出“抄他人作业”这一特定作弊行为的频率。这 3 个变量的Shapley值间不存在显著的差异(具体数值参见图4,t=0.57,1.

48、78,1.23,dfs=327,p=0.57,0.22,0.08),且后两者间有显著的相关关系(r=0.21,p 0.001),即三者对小学生作业作弊行为的预测力相当。具体说来,上述变量均对作弊行为存在显著的正向预测作用,即自我评价的成绩越差也越有可能作弊;同伴作弊行为发生得越普遍或越频繁,个体自身越有可能作弊。第三组变量的 Shapley 值均在 1%2%内,在模型中的边际贡献较小,该组变量中最大的 Shapley值(1.75%)显著低于 2.9%(t=6.99,df=327,p 0.001)。包括:小学生所处年级(6 和 4 年级学生的作弊率高于 2 年级学生),感知到的同伴对作弊行为的接

49、受程度,同伴做出“做作业时抄答案”这一作弊行为的频率(感知到的可接受性/频率越高,作弊的可能性越大),小学生对“受父母惩罚”、“受父母批评”和“受老师惩罚”这3种作弊可能带来的后果的严重性评价(越是认为这些后果严重,越不可能作弊;r=0.44,0.34,0.36,ps 0.001),以及学校类型(民工子弟学校的作弊率低于普通公办学校)。除了上述预测变量,剩余的变量虽对模型预测准确性具有显著的贡献(ps 0.05),但重要性非常弱(Shapley 值 1.2)。第三,机器学习模型各变量的 Shapley 值分析结果进一步表明,所有预测变量均对最终模型的较高预测准确率和良好拟合作出了显著贡献。然而

50、,这些预测变量的重要性存在比较明显的差异。具体说来:首先,小学生自身对作业作弊行为的接受程度是其是否作弊的最关键的预测变量。他们越是认为作业作弊是可接受的,就越有可能报告自己曾经有过这样的行为。这一结果与以往在大中学生群体中的发现基本一致(Abaraogu et al.,2016;Ives&Giukin,2020)。Murdock 和 Anderman 通过对以往研第2期 赵 立 等:人工智能方法在探究小学生作业作弊行为及其关键预测因子中的应用 249 究进行综述后提出,个体对作弊行为可接受性的判断差异可能基于两种原因:第一,个体认为作弊的可接受性高可能是由于其并不认为作弊是不道德的行为;第二

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服