人工智能赋能改进结果评价：问题、路径及展望.pdf

资源描述

1、收稿日期：基金项目：作者简介：2023-12-25国家社会科学基金“十四五”规划 2022 年度教育学重点课题“智能技术赋能教育评价改革研究”（ACA220026）刘邦奇，男，讯飞教育技术研究院院长，西北师范大学教育技术学院教授；汪张龙，男，科大讯飞股份有限公司副总裁，广东讯飞启明科技发展有限公司总经理；胡健，男，讯飞教育技术研究院研究员；刘碧莹，女，讯飞教育技术研究院研究员。结果评价是教育教学实践中运用最为广泛的一种评价方式。深化新时代教育评价改革总体方案明确提出“改进结果评价”，坚决改变用分数给学生贴标签的做法，推动多种形式学习成果的认定、积累和转换，逐步转变简单以考试成绩为唯一标准的招

2、生模式1。以考试为代表的传统结果评价存在评价方式单一、评价内容片面、重智育轻德育、重分数轻素质等问题。当前，生成式人工智能的快速发展引发全球高度关注，以大语言模型为代表的生成式人工智能可以实现对人类思维符号表征系统的模式识别和高质量内容的快速生成，进一步提升人工智能的服务能力，拓展其应用边界。各类教育大模型的快速迭代升级，为推动结果评价改革创新提供更多可能，也为推动由“量”的评价向“质”的评价转变2提供新的发展契机。一、结果评价的特点及面临的现实困境（一）结果评价的内涵及特点结果评价也称为终结性评价，是指在学习任务或者教育活动结束以后，对学生学习结果进行的一种评价，包括对分数和作品的评议3。结

3、果刘邦奇1,2汪张龙1胡健1刘碧莹1（1.讯飞教育技术研究院，合肥 230088；2.西北师范大学，兰州 730071）人工智能赋能改进结果评价：问题、路径及展望摘要：人工智能赋能改进结果评价，旨在克服评价实践中存在的评价内容片面、手段单一、唯分数等弊端，在评价工具的开发和量化结果的应用上不断创新突破。当前，以生成式人工智能为代表的人工智能前沿技术在教育领域表现出巨大的应用潜力和适用性，人工智能全面渗透到教育评价系统性变革的步伐再次加速，为改进结果评价带来新契机。以考试为代表的传统结果评价作为研究对象，在阐述结果评价特点、改进结果评价面临的现实困境及实践路径的基础上，深入分析人工智能在赋能结

4、果评价工具、手段、输出及应用4个主要场景的典型技术应用，以期为一线教师和教育主管部门理解和掌握人工智能赋能改进结果评价的规律、开展人工智能支持的评价改革实践提供参考。关键词：人工智能；结果评价；生成式人工智能；评价改革【中图分类号】G405【文献标识码】A【文章编号】1005-8427（2024）01-0034-11DOI:10.19360/ki.11-3303/g4.2024.01.003Journal of China Examinations2024年第1期No.1,2024评价的主要功能在于鉴定和选拔，既可以检验学习效果，也可以作为人才选拔的依据，并在一定程度上反映学生的发展状况、学校

5、的教学质量，乃至区域的教育发展水平。在我国教育评价实践中，结果评价的主要方式是考试，其中最重要的是中考和高考4。结果评价具有目标性、客观性、规范性、可操作性4个特点。具体而言：1）目标性。结果评价是一种基于目标的评价，具有明确的目标性。结果评价注重教育目标的达成度，其框架结构和内容表述方式是依据一定的目标，紧紧围绕课程标准、课程结构、课程内容、学业质量和学习评价等要素展开的，以保障学习活动与评价活动的完整性和一致性。基于目标的结果评价，可以在更广泛的范围内提供可比较的学业成就证明5。2）客观性。结果评价作为一种目标参照评价，用预定结果作为标尺衡量学生进步情况，可以在一定程度上提高教育评价的客观

6、性，避免主观性。结果评价通常根据客观事实和数据形式得出结论，并以分数的形式呈现，相较于人文化的推断或阐释式结论而言更为简明易懂6。3）规范性。结果评价主要通过考试测评实施，考试普遍按照规范流程运作，如命题规范要求命题人员按照大纲进行试题内容创作，考场规范要求监考人员和考生恪守考场纪律，评卷规范要求评卷人员遵守评分细则进行试卷评阅等。考试各个环节的规范化实施为结果评价的公平公正提供保障。4）可操作性。与其他评价相比，结果评价有明确的评价标准和评价程序，每个步骤都有较强的可操作性。在评价过程中，评价人员可以依据标准程序对相关资料进行分析，由此可以实现在较短的时间内用较少的人力对评价对象进行描述，进

7、而实现准确高效的评价6。（二）改进结果评价面临的现实困境改进结果评价亟待解决的现实问题集中表现在结果评价的工具、手段、评价结果输出和应用4个场景中，其中存在的一系列问题制约着结果评价在全面性、科学性、智能化等方面的转型升级，也是“见分不见人”“唯分数”痼疾等存在的主要原因。1.结果评价工具的质量缺乏稳定性保障从我国教育改革实践来看，结果评价所要测试的学生特质主要是课程标准中提出的核心素养。作为结果评价的主要工具，试卷和试题的命制水平直接影响结果评价的信效度。目前，我国在命制稳定的高质量试卷过程中还存在较多困难。一是缺乏高水平命题教师。当前，考试频次的日益增加导致对高质量试卷的需求不断增加。高质

8、量的试卷要求命题教师具备扎实的专业知识和教育理论素养，能深刻理解不同考试的目标和要求。二是命题较多依赖命题人员的个人经验。不同教师的教学理念和教学偏好不同，其命题风格和考查知识、能力的重点存在差异。如果在组织命题的过程中不能实现命题人员的认知一致或相对平衡，必然会降低试卷的科学性和公平性，也不利于评估学生的真实水平。2.结果评价的手段单一且存在局限性结果评价最常见的手段就是纸笔考试，由于它具有操作简便、呈现直观、评分标准化等优点，一直以来被广大学校和一线教师大规模地运用，以至于部分教师将其与教育评价完全等同，认为考试就是评价，分数就是素质7。“唯分数”不仅是教育管理工具主义的外在表现，也是导致

9、学生片面发展的重要根源。纸笔考试在知识类测验中具有较好的效果，但在问题解决能力、批判性思维、创造性思维、科学探究技能等反映高阶思维能力测评中，往往具有较大的局限性8。3.评价结果输出的效率与准确性不高当前各类考试的评价结果输出高度依赖评卷人员的主观经验，与之伴生的评卷人员理解评刘邦奇等：人工智能赋能改进结果评价：问题、路径及展望352024年第1期分标准偏差、求稳打“保险分”、人工阅卷效率低等问题一直困扰考试工作。随着我国考试数量增多、考试规模扩大及对创新型高素质人才选拔要求的提高，人工阅卷方式需要花费的时间、成本都越来越高。例如：考试题型从常见的选择题和问答题逐渐升级为阅读理解题、看图作答

10、题、实验操作题、多思路解答题等评分难度更高的题型；考试内容从语数外、文理科等传统考试学科扩展到对语言能力、艺术素养等评分要求更高的考查项目。然而，目前大多数学校、考试主管单位的阅卷组织水平都难以满足大规模、复杂性考试的实际需要，阅卷效率和准确性亟待进一步提升。4.评价数据的价值有待深度挖掘一直以来，考试评价结果的处理主要是建立在传统教育测量学和统计学理论的基础上，重点围绕考试本身的难度、区分度、信度和效度等开展研究，但最后实际应用的只有分数和排名信息，考试数据价值的挖掘和利用还远远不够。答卷和分数是对考生知识和认知能力的间接测量结果，单凭分数描述考生对某一领域具体知识和技能的掌握程度是不准确的

11、，必须配合更丰富的证据信息，如试卷的难度、试题细目表等进行进一步的解析和关联9。此外，评价数据的应用缺乏与其他教育环节的有效链接，如基于总体评价结果反思教学设计与教学方法、根据个体评价结果制订个性化学习方案、结合借助评价数据变化规律服务教育管理与决策等方面。二、人工智能赋能改进结果评价的价值定位与路径分析（一）人工智能赋能改进结果评价的价值定位人工智能的发展与应用为以考试为代表的传统结果评价赋予新的内涵与形态，命题组卷、考试实施、评阅卷、考试数据分析等传统考试业务场景正在发生变化。国家教育考试中一些难以通过常规和传统手段解决的个性化问题，在人工智能和大数据技术的辅助下，有可能实现突破10。林蕙

12、青认为人工智能对结果评价的改进主要体现为：突破纸笔考试的局限性，充分利用多媒体、虚拟仿真等先进技术开发计算机化考试平台，构建人机交互、场景再现、模拟操作等考试环境；利用大数据等现代信息技术和先进心理测评技术对考试结果进行充分挖掘，开发能够反映学生知识、能力、素养、价值内化水平的直观统计图11。杨宗凯提出利用人工智能改进结果评价，尤其是优化考试流程，实现从组卷、阅卷到考试管理等各方面的整体提升12。关丹丹等建议全面采集考试业务全过程数据，利用人工智能、大数据等现代信息技术和先进的考试评价技术，挖掘考试数据蕴含的丰富信息，向学生、学校、政府部门等提供各类评价和决策咨询报告13。综上可知，人工智能为

13、改进结果评价注入新活力，推动智能化测评快速发展。这不仅有助于建立更加科学的评价模型和方法，实现评价模式的创新升级，而且有助于丰富结果评价的数据来源，挖掘更多有价值的评价内容，从而有效地提升结果评价的客观性、公平性和准确性。（二）人工智能赋能改进结果评价的路径分析人工智能在考试领域的深度应用为改进结果评价奠定坚实基础，主要体现为在结果评价的工具、手段、结果输出及结果应用等关键场景推进其智能化应用水平。人工智能赋能改进结果评价的实践路径及关键赋能点，见图1。一是依托题库平台开展智能命题与组卷。通过试题查重、难度预测、试题自动生成、智能化组卷等人工智能技术，实现快速、高效的命题作业，在提升试题质量的

14、同时，使试卷这一核心评价工具更具客观性和科学性。二是充分开展基于智能考试平台的考试测评。这不仅可以显著降低组织考试评价工作的难度，而且可满足实验36测评、语言测评和艺术素养测评等新兴考试需求，以多样化的结果评价手段为准确高效地评价学生高阶能力和核心素养创造条件。三是建立人机共评的新型阅卷模式。通过打造升级智能评价模型、智能评分引擎、智能切割算法等人工智能技术，赋能评价结果的输出过程，实现更高效、更精准、更可信的评价。四是创建智能考试分析模型。通过加强数据挖掘、画像分析等人工智能技术在考试分析中的应用，为优化教师教学、改进学生学习、预测学业风险等提供客观、有效的分析结论，进一步发挥评价结果在改进

15、教师教学流程与方法、促进学生多元智能与个性发展等方面的作用。三、关键场景及技术应用人工智能赋能改进结果评价是一个系统性、全方位的过程，需要分析和评估人工智能技术如何在以考试为代表的传统结果评价中切实发挥作用，以及人工智能技术的应用是否有利于结果评价关键问题的解决与优化。基于此，有必要对人工智能在结果评价4个关键场景中的具体应用过程及其对各环节的提升改进情况展开深入讨论。（一）智能命题与组卷智能命题与组卷，即依托人工智能相关技术实现命题与组卷工作的信息化、自动化、精准化、智能化，提高试卷编制的质量与效率，精准传递命题人员的出题意图，有效保障结果评价工具的科学性。其改进结果评价主要体现在：1）通过

16、自动化查重降低命题重复风险。通过对试题的文本、公式、图片进行重复性检测，并采用基于语义理解的相似度匹配，经过多轮查重，能有效降低试题试卷的重复性，基本规避命题“撞车”风险。2）通过精准化难度预测预知命题效果。新命制的试题经过分词、词嵌入、深度表征等步骤后进入难度预测模型，程序开始自动计算该题在训练数据尺度上的难度值，并给命题人员提供除经验和主观判断之外的参考，从而有助于其考前把握试卷的整体难度和区分度。3）通过试题内容生成助力命题减负增效。传统命题方式受资料查询困难、命题人员水平和经验不均等限制，而试题内容生成可按照“命题模板”自动生成多份可供参考的粗加工试题，并支持命题人员以交互对话等访问形

17、式最大限度地调动相关知识储备进行修改完善，从而显著降低命题难度与成本。4）通过图1 人工智能赋能改进结果评价的实践路径刘邦奇等：人工智能赋能改进结果评价：问题、路径及展望372024年第1期智能化组卷为试卷质量提供稳定保障。运用人工智能算法，可以使系统按照需求从题库中自动选择试题并完成试卷内容设计；可以使试卷最大限度地符合教学考核要求，从而真实地反映教学水平、有效地测定学习效果14；还可以降低组卷的专业要求并提升试卷信度与效度。人工智能技术赋能结果评价工具的具体应用，详见表1。目前，智能命题与组卷已经在多个大型考试中得到实践和应用。国外比较有代表性的是英国培生教育集团（Pearson Edu

18、cation Group）组织的培生学术英语考试（Pearson Test of English Academic,PTE），该考试采用基于欧盟语言框架的线上命题流程，形成专业化题库运作机制，其考试结果得到全球54个国家、数千所综合大学和机构的认可16。国内比较有代表性的是教育部教育考试院为响应中高考改革对“统一命题”和“一年多考”的迫切要求而全力建设的国家题库 2.0。该系统实现了传统征命题流程的智能化升级，利用查重、难度预测、教育大模型等人工智能技术解决各种复杂命题场景下的难题，服务全国各地命题能力建设新需求，现已初步运用于成人高考、国家英语能力等级考试（NETS）等命题实践中17。（二）

19、智能考试平台智能考试平台将语音语义识别、深度学习、行为动作分析等人工智能技术融入计算机化考试，为考生搭建公平公正、智慧、人性化的考试环境。智能考试平台一方面通过客观题线上作答与主观题手写作答或拍照上传相结合的方式，既兼容传统纸笔考试，又解决纸质试卷存在的印刷、运输、回收、评分等一系列耗时耗力问题；另一方面又可以创新结果评价手段，展开更加丰富、更多交互、更具内涵的结果评价。智能考试平台改进结果评价主要表现在3个方面：1）模拟真实情景对学生能力和素养展开更深入的评价。集成教育大模型后的智能考试平台能够自动创设一系列基于真实问题解决的探究性测试，并采集学生在解决问题过程中的操作、决策等行为数据。通过

20、AI考官与学生的交流对话，智能考试平台可以分析学生的情感和面对挑战时的心理状态，从而获得与学生人格特质和思维风格等相关的诊断信息，为评价学生高阶能力和核心素养提供更多的依据。此外，智能考试平台还具备展表1 人工智能技术赋能结果评价工具技术赋能点试题文本查重试题语义查重试题图片查重试题难度预测试题内容生成智能化组卷具体应用说明文本查重广泛应用于学术、科研等领域，其基本原理是先对文本按一定的规则进行分词处理，然后将分词结果转化为多个向量并实现对文本的数学表示，最后基于余弦相似度和Jaccard相似度等算法与题库已有试题进行相似度计算，得出重复内容的比例，超过查重阈值的，即视为检测出重题语义查重是在

21、文本查重的基础上，进一步对整个试题文本的句子、段落和整体结构进行分析，同时结合上下文关系和语义多样性，深入理解文本的主题、情感、意图及表达方式，从而提供更加准确的相似度比较结果随着题库容量的增大，命题中反复使用同一张图片的情况逐渐增多，有的甚至用的是同一张图片的模糊版本，严重影响试题质量；人工智能可以对不同图片中的相似区域进行自动标记，辅助命题团队对这些标记进行仔细复核，防止一些存在剪切、翻转、旋转、缩放情况的“山寨”图片进入题库难度预测即通过自然语言处理程序（natural language processor,NLP）综合分析新命试题的句式语法的复杂程度，如词汇冷僻程度、句子关联程度、话题

22、热点程度等反映试题难度的因子，并基于大量公开试题的难度、区分度数据及多名专家的标注结果，不断训练难度预测模型，模拟新命试题投入实测后预期表现的难度和区分度结果人工智能生成内容技术（AIGC）通过分析大量历史试题数据和教材教案文本，结合命题专家经验对深度学习模型不断训练，在用户多轮优化输入描述后，不但能生成在语言风格、提问方式、难度、体量等方面与命题要求高度匹配的新试题，而且还能生成图片、音频、视频等支撑富媒体（rich media）试题的创作智能化组卷离不开人工智能算法的助推。以遗传算法为例，这是一种模拟自然界生物进化过程的智能算法，通过模拟基因的交叉、变异和选择等操作，逐步优化问题的解等15

23、。因其具有自适应全局寻优、智能搜索、收敛性好等特征，故能较好地契合组卷的规则与目标，进而提高组卷的效率和质量38示、考查技术增强型试题的条件，与传统题型相比，能显著提升考试效度，并测量更为复杂多元的知识、能力和素养，使试卷和题目更接近真实的生活和学习场景18。2）支持更丰富完善的语言能力评价。智能考试平台一方面对字、词、句、篇等朗读题型进行测评，侧重评价学生的发音准确性和发音质量；另一方面对口头翻译、口头复述、看图说话、话题表述等题型进行测评，侧重评价学生的逻辑思维能力和语言组织能力19。3）支持标准化的艺术素养评价。智能考试平台针对考查音乐与美术文化知识、音乐表演与绘画技能、音乐与美术鉴赏感

24、受等要求设计相应的机考题型，为构建统一、可量化的艺术素养评价标准提供“抓手”。人工智能技术赋能结果评价手段的具体应用，详见表2。依托人工智能技术赋能考试测评智能升级，是教育考试发展的必然趋势。在理化生实验能力测评方面，相较于传统的实验考试而言，使用智能考试平台进行在线模拟考试具有低成本、高安全、便捷性、规范性等优势，如北京航空航天大学附属中学采用虚拟实验软件进行中考物理、化学实验加试考试并取得良好反馈20。在语言能力测评方面，智能考试平台已经普遍应用于国家普通话水平测试、少数民族汉语等级考试、中小学英语听说考试，如长沙市在首批“人+机”英语口语与听力考试中应用智能语言测评系统并取得圆满成功21

25、。在智能艺术测评方面，一些地方尝试用人机对话方式评价学生的艺术素养，如东莞开展初中学业水平考试中的音乐、美术上机考试，高效地完成了对全市初中生艺术素养的测评22。（三）智能阅卷智能阅卷通过深度应用图像检测、手写识别、自然语言理解、深度学习等人工智能技术，可以实现主观题智能评分、无效作答检测、雷同卷判定、自动统分等智能化操作，使“具备专家评分水平”的计算机标准化地执行和实施主观题评分这一设想初步变成现实23。智能阅卷改进结果评价主要体现在4个方面：1）智能阅卷实现降本增效。智能阅卷可以在短时间内自动化处理大规模的考生作答数据，显著提高阅卷效率，让评卷人员更多地聚焦评价工作本身；还可以在缩短阅卷周

26、期的同时大大降低阅卷的人力成本。2）评分标准客观稳定。在主观题评分过程中，人工智能可以始终保持客观统一的评分标准，从根本上表2 人工智能技术赋能结果评价手段技术赋能点考场智能监控实验能力测评语言能力测评音乐素养测评美术素养测评具体应用说明基于计算机视觉技术对传统考场视频信号进行处理、分析和理解，通过对序列图像的智能分析，捕捉监控场景中的变化并进行定位、识别和跟踪，在此基础上分析和判断考生的异常行为（如考生交头接耳、使用电子设备、传递纸条等），有效协助监考人员识别并处理作弊行为，保障评价过程的公平公正人工智能技术与虚拟现实技术紧密结合，共同提供模拟线下真实操作的实验体验，AI考官可以引导考生完成

27、实验操作，提供更加智能化和自然的交互体验，还可以记录实验行为轨迹，分析考生的动作和意图，为客观评价考生的实验能力提供依据基于语音识别与检测技术，确保采集到的作答数据的各项物理参数（如音量、信噪比等）符合评分要求，在测评过程中按照准确度、流畅度、完整度、自然度、语速、停顿次数等维度解析考生语音信号，为客观评价考生的语言能力提供依据基于语音识别与分析技术，针对音乐学科重表达的特性，提前在模唱、视唱、节奏敲击等题型中设计得分点，在测评过程中按照音准音色、节奏节拍、流畅完整等维度解析考生的语音信号，为客观评价考生音乐素养与潜质提供依据基于沙箱机制、组件对象模型等人工智能技术，针对美术学科强交互、重操作

28、的特性，设计拼图、配色、画线、“三庭五眼”等操作类题型，自动跟踪记录考生的操作步骤，为客观评价考生美术绘画能力与艺术鉴赏能力提供依据刘邦奇等：人工智能赋能改进结果评价：问题、路径及展望392024年第1期克服人为因素干扰导致的评分标准波动问题，从而有效地保障结果评价的真实客观性。3）评分过程有迹可循。通过抽象主观题评分特征和深度学习专家评分样本，人工智能技术可以将主观题评分的背后原理和评分逻辑以量化形式呈现出来，从而提高考试结果评价的可解释性和公信力。4）高效甄别抄袭、套题等虚假结果。智能阅卷可以自动甄别雷同卷、套题等人工手段难以发现的虚假结果，从而最大限度地保障考试结果的公平公正。人工智能

29、技术赋能评价结果输出的具体应用，详见表3。得益于教育大模型在模型规模、训练方式、理解深度等方面的提升，智能阅卷展现出愈发广阔的应用前景。以美国教育考试服务中心（Educational Testing Service,ETS）开发的E-rater（electronic essay rater）混合评分系统为例，该系统采用自然语言处理技术分析文章中单词、句子、篇章3个层面的特征，并综合考虑作文的语言表达形式、内容质量、篇章结构等因素后进行评分，其在托福考试、GMAT中应用较为成熟26。国内具有代表性的是科大讯飞的智能阅卷系统，该系统可以对作文、翻译、问答等主观题作答结果进行智能识别和测评。以数学解

30、答题为例，人工智能对作答公式和计算结果的正确性进行校对和识别处理之后，可以进一步分析学生的解题步骤和思路，自动标记得分点和给分说明，实现对主观题更加综合、客观、可量化分析的评价。2022年，该系统承担 119 个省市区的中高考扫描阅卷工作，同时还在广东、上海、安徽、江苏、天津等十余个省市范围内进行高考智能阅卷的辅助评分27。（四）智能考试分析智能考试分析以教育测量理论为指导，通过自动汇总考试上下游数据、基于人工智能算法深度挖掘数据间的信息和规律、科学展示可视化分析结果等方式，帮助教育主管部门、教师、学生等多方主体更好地理解和运用考试分析结果，从而达到全面、科学、精准的多元评价效果。智能考试分析

31、改进结果评价主要体现在3个方面：1）高效处理全域考试数据。智能考试分析可以充分利用整个考试周期（考试报名数据、答卷过程数据、阅卷成绩数据、招生录取数据等各环节数据）和不同时期考试（如某个班级初中阶段经历的所有正式考试）的海量数据，降低考试数据处理的难度和成本，挖掘大量隐藏的信息及规律，从而技术赋能点基于机器/深度学习的评价模型作答区域智能切割基于自然语言理解的智能评分引擎试卷相似度检测具体应用说明评价模型构建一般需要经过数据集准备、模型定义、模型训练3个步骤，其中数据集质量对智能阅卷的最终效果具有决定性影响。首先，采取“专家随机抽取+智能挑选样卷+聚类分段补充”的程序进行数据样本集合的选取24

32、，这种做法更符合高利害考试环境下考生成绩趋向正态分布的特点；其次，由专家对数据集进行精细标注，逐步建立作答数据物理特征与专家标注结果之间的高精度映射模型；最后，经过多轮的误差校正和算法优化，最终形成与当前测评相匹配的专属评价模型当考生在卷面上实际书写的作答内容存在一定程度的溢出时，如果按照一般的模板固定切分方法，会导致扫描后丢失部分考生作答信息；引入智能切割算法后，可自动调整每题的预留答题空间，并以贴合笔迹线的方式进行更完整的作答区域分割，从而最大限度地减少作答信息的缺失评分引擎在完成对考生作答文本的中英文识别后进行特征向量化处理，形成词向量矩阵，再结合作答文本的自然语言特征构建描述该文本的完

33、整特征矩阵。以作文评分为例，引擎可提取字迹工整程度、词汇丰富度、句子通顺性、文采、论辩结构、离题检测、立意判别等特征25，完成作文内容客观情况的网络化表征，最后结合评价模型计算各项特征权重，进行岭回归（ridge regression）后生成作文分数和评分说明试卷相似度检测的人工智能技术应用方法与试题查重类似，区别在于试卷整体的文本体量更加庞大，因此可以借鉴学术论文查重中的分析方法，如用不同的颜色对两份试卷不同相似程度的区域进行分类标记，并按相似度高低排序进行展示等，这样有助于发现更隐蔽的抄袭现象，给出更具说服力的评判结果表3 人工智能技术赋能评价结果输出40自动建立考生、试卷、成绩的关系模型

34、，为多元评价奠定基础。2）深度挖掘影响考试结果的各种因素。通过对历次考试结果变化及深层原因进行清晰细致的分析，找出对学生学习和教师教学有用的信息，进而为提高教学质量提供参考借鉴，引导教师和学生共同对考试结果进行问题反思，从而有针对性地矫正学生的不良学习方式、改进教师的教学策略。3）评价报告有助于改进教育教学指导。智能考试分析产生的报告更加丰富多样，不仅可以按个人、班级、学校、区域等层级进行多样化展示，还可以支持各级用户自行调整变量，按需生成定制化分析报告，为整体教学改进和个人学习发展提供更贴合的数据支撑。人工智能技术赋能评价结果应用的具体说明，详见表4。目前，智能考试分析普遍受到各方重视，多地

35、已将智能考试分析作为新高考改革的有力举措。浙江省从新高考“首考”开始即推行诊断报告，考生在查询成绩时不再是一个简单的分数或等级，而是一份包括成绩信息和诊断信息的个性化分析报告。诊断报告不仅提供学业水平考试等级、选考科目等级赋分结果等成绩信息，而且还有大量知识、能力方面的诊断信息，从原先的“卷面成绩”拓展到“模块得分、学科知识、学科能力、考核目标达成度”4 个方面的内容，并划分5个层级反映个体在全体考生中的相对水平30。成都市基于学业水平考试大数据，为本市高中生定制个性化成绩诊断报告，学生在查询自己的学业成绩时，不仅可以了解不同学科、不同板块知识点和能力点的掌握情况等丰富信息，还可以看到自身的优

36、势、劣势能力分析31，明确个人的提升方向和改进途径。四、生成式人工智能赋能改进结果评价的未来转向近年来，以深度学习技术为核心的生成式人工智能不断取得突破，其表现出的智能涌现、强认知性、高通用性等强大能力给教育领域带来新的变化与挑战。联合国教科文组织认为，生成式人工智能是根据人类借助思维符号表征系统表达的提示（prompts）自动生成内容的人工智能技术32。中国国家互联网信息办公室将生成式人工智能技术定义为具有文本、图片、音频、视频等内容生成能力的模型及相关技术33。生成式人工智能正在冲击当前教育评价体系，促进评价方式加速转向自动化与智能化，评价内容实现知识、素技术赋能点总分构成因素分析个体特征

37、与学业成绩关联分析教学问题诊断分析学业风险预测分析具体应用说明相同的总分并不代表一样的发展水平，通过决策树分类算法可以分析影响考试总分的不同因素及权重，以树型结构表示分类或规则，明确总分结构差异及发展方向。如在英语四级考试中构建决策树，通过提取、分析分类规则后发现，听力、阅读和写作3种题型对英语四级的总成绩影响存在差异28，从而明确下一阶段的练习重点研究个体特征与学业成绩的关联情况有助于因材施教。基于层次聚类等算法分析考生群体的兴趣特长、性别、学科背景、答题习惯等特征，可以构建特征间的相似度亲和矩阵，从而洞察兴趣特长和单科成绩间的关系、性别或学科背景对同一题目得分的影响是否存在差异、某考生是粗

38、心导致失分还是某知识点薄弱导致失分等传统成绩报告中传递的信息要素较为单一、缺乏诊断性内容，引入知识图谱、画像分析后：教师可以获得全班的知识点掌握态势分布、各层次的得分差异及更有针对性的教学建议；学生可以获得当前学习成果的“体检报告”及学习提升路径；管理者可以获得当地考试评价的动态档案及指导教学管理工作的建议通过综合分析学生过往学业表现与近期成绩、行为变化，基于随机森林等算法构建学业成绩的预测模型，力求对学业成绩进行有效估计和准确预测，及时发现具有潜在风险（如学习压力过大、学习成绩下滑、学业规划不合理等）的学生，对其实施个别化干预，以达到防范风险、降低辍学率等目的29表4 人工智能技术赋能评价结

39、果应用刘邦奇等：人工智能赋能改进结果评价：问题、路径及展望412024年第1期养（尤其是数字素养）、思维与能力（高阶思维、合作能力、创新能力、实践能力）相结合，评价指向更侧重于过程性评价34。当前生成式人工智能技术革新的影响进一步聚焦结果评价，激发改进结果评价的新探索、新转向。（一）从单向评价转向多维评价传统结果评价一般只能实现在特定的时间段对学生的知识掌握情况做单个项目的诊断，并基本以分数或等级作为其唯一评价结果。生成式人工智能具备支撑复杂场域中进行语义理解、情境对话、推理分析的条件，与多模态数据采集技术、虚拟现实等技术相结合后，可构建智能化、交互式、深度沉浸体验的结果评价环境。通过与被评

40、对象进行知识问答、逻辑推演、心理博弈、任务闯关等多层次交互，伴随式采集生理、体征、言语、行为等反映被评对象深层次特质的多模态数据，捕捉、分析和评估被评对象的实时状态，从多个维度刻画被评对象在参与评价时的“画像”，最后输出包含知识诊断、思维与能力分析、应试状态分析在内的多维度测评报告。生成式人工智能可以主动访问被评价对象的知识架构和能力体系，全面考查被评价对象的综合素质，为评价与选拔单位提供更完整、更细致、更具参考价值的评价结果。（二）从静态评价转向动态评价传统结果评价通常根据预设的标准或指标，以专家经验为主，按相对固定的评分标准或模式进行评价。这种静态的评价方式逐渐不能适应新高考改革带来的创新

41、型、综合型试题命题和阅卷压力，亟须生成式人工智能的介入，激活结果评价的全流程链条。生成式人工智能首先基于历次考试数据与常模参照分析结果，结合最新命题素材和命题要求，生成难度、区分度、选项均可按需调整的半成品试题，智能辅助专家修改审查，实现高质量高效率命题；其次基于多任务处理和多题型解析的能力辅助阅卷工作高效完成，自主训练完成本轮测评数据模型的构建，分析本轮命题的信效度，为下一轮命题提供数据驱动的科学指导。生成式人工智能提升从命题到阅卷全流程业务的数据流通与应用水平，提高结果评价的连续性和可追溯性35，促进结果评价在动态循环中不断改进。（三）从选拔评价转向发展评价传统结果评价过度强调评价的选拔功

42、能，侧重对学生现阶段取得的成果检测，属于贴标签式的评价，既忽视学生思想品德、身心健康、能力素质等重要因素，又不利于学生全面发展36。生成式人工智能依据用户提供的质性评价标准，可以实现对可计算的技能表现结果的拟合度匹配和判别，并提供形成性评价与反馈37。上述质性评价标准往往不容易观测，且依赖主观经验较多，通过生成式人工智能在测评方式、数据拟合算法上的创新应用，可以获得相对客观、准确的评价结果。例如，依托生成式人工智能发起周期性的智力测试，评估被评对象经过一段时间学习后在抽象思维、空间想象力、逻辑推理能力等方面难以觉察的变化，并以量化的、可解释的图表形式呈现出来，从而更为深刻地反映被评对象身心发展

43、轨迹和变化规律。生成式人工智能助力结果评价在育人成长价值上的深度挖掘，引导评价结果的应用目标与“促进人的全面而有个性发展”的根本目标相对齐。五、结束语人工智能作为引领未来社会变革和推动教育数字化转型的重要驱动力，为教育评价的变革发展和转型升级赋予了新手段和新动能。以生成式人工智能为代表的新一代人工智能，能够更全面精准地测评学习者的真实状态，促使人们从对分数结果的过度关注转移到认真审视核心素42养、思维能力、性格品质的发展变化，帮助结果评价回应诊断教育教学问题、反馈高效改进路径的价值期待。人工智能赋能改进结果评价需要突破传统评价思维和评价方式的局限，在评价工具开发、评价手段创新、评价结果输出、评

44、价结果应用等关键场景发挥智能技术优势。一方面，应在学业水平考试、模拟测验、学业诊断等日常评价场景上加大推广力度和挖掘应用深度；另一方面，应在中高考、各类能力等级考试等高利害考试中稳中求进、小步快跑，积极探索新一代人工智能赋能结果评价新模式、新方法的创新应用，促进新时代“改进结果评价”落地，推动我国教育评价改革持续走实走深。参考文献1 中共中央国务院印发深化新时代教育评价改革总体方案 EB/OL.（2020-10-13）2023-10-15.http:/ 范国睿.教育评价改革需要新路向J.现代教学,2020（增刊4）:1.3 谢维和.结果评价及其改进思路J.基础教育参考,2022（5）:11

45、-12.4 辛涛.挖掘过程性数据中的教育价值EB/OL.（2020-12-12）2023-10-15.http:/ 颜亮,孙洪涛,张强峰,等.美国体育课程标准中结果的设计与评价:结果导向教育理念的课程实践与启示J.天津体育学院学报,2020,35（6）:633-638.6 张宇,王华容.冲突与整合:教育中的结果评价与过程评价J.海峡科学,2013（8）:76-78.7 黄牧航.从教育测量走向教育评价:论新课程改革后高考考试评价制度改革的趋向J.中国考试（研究版）,2009（5）:3-10.8 骆方,田雪涛,屠焯然,等.教育评价新趋向:智能化测评研究综述J.现代远程教育研究,2021,33（5）

46、:42-52.9 李骐,李全龙.从评价到决策:考试大数据的价值分析与实践路径J.中国考试,2019（9）:72-78.10 王蕾,佟威.赋能教育考试新基建助力考试战线新发展:国家题库2.0创新实践J.中国考试,2021（2）:34-39.11 林蕙青.努力实现新时代高校人才培养新作为EB/OL.（2018-10-26）2023-10-15.http:/ 杨宗凯.利用信息技术促进教育教学评价改革创新J.人民教育,2020（21）:30-32.13 关丹丹,韩宁,章建石.立足“四个评价”、服务“五类主体”进一步深化高考评价改革J.中国考试,2021（3）:1-8.14 何晶,任海鹏,范宏宇.基于

47、试题库的智能组卷技术探索J.无线互联科技,2015（21）:74-76.15 史杨.基于改进遗传算法的智能组卷系统的研究J.中关村,2023（10）:112-113.16 Pearson.PTE AcademicEB/OL.2023-10-15.https:/ 王蕾.国家题库服务中国式考试现代化的探索 J.中国考试,2022（12）:27-33.18 王蕾.人工智能生成内容技术在教育考试中应用探析J.中国考试,2023（8）:19-27.19 魏思,吴奎,竺博,等.语音评测技术助力英语口语教学与评价J.人工智能,2019（3）:72-79.20 北航附中首次使用虚拟实验软件进行实验加试考试!E

48、B/OL.（2019-04-23）2023-10-15.https:/ 科大讯飞助力长沙市高中学考首批“人+机”英语口语与听力考试EB/OL.（2020-11-17）2023-10-15.https:/ 东莞市教育局.东莞市初中学业水平考试音乐、美术考试实施方案EB/OL.（2019-10-16）2023-10-15.http:/ 汪张龙.人工智能技术在考试中的应用J.中国考试,2017（11）:30-36.24 何屹松,孙媛媛,张凯,等.计算机智能辅助评分系统定标集选取和优化方法研究 J.中国考试,2020（1）:30-36.刘邦奇等：人工智能赋能改进结果评价

49、：问题、路径及展望432024年第1期25 何屹松,孙媛媛,汪张龙,等.人工智能评测技术在大规模中英文作文阅卷中的应用探索J.中国考试,2018（6）:63-71.26 ETS.About the e-rater Scoring EngineEB/OL.2023-10-15.https:/www.ets.org/erater/about.html.27 从攥“红笔”到握“鼠标”,高考阅卷背后的技术革命EB/OL.（2022-06-24）2023-10-15.https:/ 王芙蓉.基于数据挖掘的 CET-4 成绩分析与研究D.银川:宁夏大学,2016.29 赵磊,田丹.人工智能何以赋能教育评价

50、:基于国际研究热点和前沿的分析与启示J/OL.中国医学教育技术,1-122023-12-25.http:/ 浙江新高考首推学生成绩“诊断报告”EB/OL.（2015-12-25）2023-10-15.https:/ 成都为高中学生打造个性化“成绩诊断报告”EB/OL.（2016-01-04）2023-10-15.https:/ MIAO F C,WAYNE H.Guidance for generative Al ineducation and researchM.Paris:UNESCO,2023:1-38.33 国家网信办网站.生成式人工智能服务管理暂行办法EB/OL.（2023-07-1

展开阅读全文