1、收稿日期:作者简介:2023-10-12席小明,女,香港考试及评核局考试、评核及研究部总监。席小明(香港考试及评核局,香港 999077)以学习者为中心的自适应学习系统的设计与评估摘要:个性化、定制化、自适应已经成为教育领域的流行语。为适应不同学习者的特点、优化学习者体验,应研发跨学科领域的个性化自适应学习系统,并开展全方面评估。基于此,讨论自适应学习系统涉及的专业领域和各项评估,分析设计评估时需要考虑的重要因素,并提出评估自适应学习系统功效的框架,包括用户属性界定、用户属性评估、内容代表性、用户交互设计、用户交互效果等。应用本框架能够高效而准确地评估,并提供可行有效的反馈信息,以保障学习者最
2、优的学习体验。关键词:自适应学习;个性化学习;评估科学;自适应系统评估;人工智能技术【中图分类号】G405【文献标识码】A【文章编号】1005-8427(2024)02-0025-8DOI:10.19360/ki.11-3303/g4.2024.02.004引 言论及教育领域过去10年最重要的技术创新,自适应学习技术可能会位居榜首。技术的最大优势之一是使创新规模化,以惠及众多的用户,自适应学习技术就是一种让创新的学习方式规模化的技术。在高质量的一对一教学中,教师根据学习者水平、需求和偏好提供个性化教学;自适应学习系统则通过使用人工智能技术使个性化学习规模化。自适应学习系统的架构非常复杂1-3,
3、但可以通过思考自适应学习系统涉及的三个关键问题来进行简化。首先是学习者已经掌握的知识或能力,这是自适应学习系统得以运作的基础。其次是学习者整个自适应学习应该是什么样,这一点在自适应学习系统的设计中往往没有得到重视,大多数情况下直接由内容开发人员编写学习内容。高质量自适应学习系统的研发需要有经验的学习设计者系统地规划学习目标,并将其分解成小的知识和技能点,设计整体学习体验,从而指导大规模的内容开发。第三是学习者进一步的学习内容,这是自适应学习系统开发者在设计过程中需要不断回答的问题。基于这三个关键问题,自适应学习系统架构主要包括三个后端引擎:用户模型(user model),内容设计和标注模型(
4、content design and tagging model),推荐引擎(recommending engine)4。用户模型包括关于学习者的知识、技能和能力的学生模型,关于学习者的需求、偏好、经验和背景的个人背景模型,以及关于学习者的学习和认知方式、情感信息的心理模型5,主要对应前述第一个问题。内容设计和标注模型存储所有的Journal of China Examinations2024年第2期No.2,20242024年第2期学习内容和技能、水平、话题等的标注,并使标注的内容能够按规则推送给个人,主要对应前述第二个问题。推荐引擎设定针对个人的学习路径、内容和用户交互方式,使个性化学习成
5、为可能,对应前述第三个问题。一、设计自适应学习系统需要的专业领域开发一个自适应学习系统涉及多个重要的专业领域,而组建一个拥有这些专业人才的团队难度非常大。为设计出先进的自适应学习系统,开发团队至少应该囊括学习科学、认知和非认知科学、评估科学、人工智能技术四个领域的人才。(一)学习科学开发自适应学习系统需要的第一个专业领域是学习科学。学习科学研究个人如何获得或增强特定的知识和技能,主要解决以下问题:学习者一般或在某个特定的领域如何获取和提高知识技能?知识技能图谱应该包括哪些知识和技能点?这些知识或技能点之间的关系如何?一个自适应学习系统的基石是知识技能图谱。该图谱应具有两个特点:一个是知识技能的
6、颗粒度非常细,这样才能为学习提供指南针;另一个是图谱应该是动态的,而不是静止的,因为在学习的过程中学习者的知识和技能会发生改变,图谱也应该相应地对学习者的知识和技能提高的路径提出假设。目前,在知识技能发展顺序比较清晰的数学和科学等领域,已经开发出相对成熟的知识技能图谱。而某些领域,如语言沟通能力及艺术能力等,其发展路径取决于学习环境、课程重点、学习者的背景特征和诸多其他因素,因此很难制定出适合所有学习者的技能发展顺序。对于这些领域,最好能够为特定人群开发更具针对性的图谱。在开发自适应学习系统时,首先需要将学习目标分解为非常细化的知识和技能点,这是一项烦琐但关键的基础性工作。最初的知识技能图谱一
7、般由领域专家完成,然后需要借助大数据进行验证和完善。(二)认知和非认知科学认知和非认知科学是开发自适应学习系统需要的第二个专业领域,对于自适应学习系统的开发至关重要,但大多数系统的开发往往忽略认知和非认知因素。领域内对认知和学习方式的研究不足,学习者参与度和学习动机等非认知因素值得更多的关注;此外,领域内也缺乏易操作并能够准确识别认知和学习方式的工具。(三)评估科学开发自适应学习系统需要的第三个专业领域是评估科学。一个全面的自适应学习系统可以通过改变学习材料的级别、顺序、内容或学习者与系统交互的模式来提供个性化解决方案,而个性化解决方案则是基于学习者的能力水平、认知和学习方式、需求和偏好以及情
8、感反应设计。这些学习者的信息需要通过不同类型的评估来得到,包括入门评估、诊断评估、动态评估、学情进度评估、自我评估和同伴评估、隐形评估、多媒态评估等。评估的主要目的是更新用户模型,以支持自适应学习,本文重点介绍动态评估和隐性评估。1.动态评估动态评估的典型设置是先进行无辅助测评,再提供辅助,然后再次进行无辅助测评6。根据学习者表现提供多级辅助,以了解学习者在各级辅助下测评任务的完成度;然后立即或隔一段时间给出同样的任务,在不提供辅助的条件下观察学习者的完成度。确定不同学习者完成复杂任务所需的支持类型后,可以针对性地提供学习内容,帮助其巩固辅助中涉及的技能。传统的评估只能衡量学习者已经掌握的内容
9、;而动态评估则26可以了解学习者在辅助之下能完成什么,注重评估学习者正在发展的技能,帮助设计合适的学习材料以促进学习者完全掌握相关技能。针对客观题的动态评估可以根据学生错答情况提供不同层级的答题辅助,如标出含有正确答案的相关段落或句子、提供正确答案的提示,以及提供正确答案的详尽解释。这一类动态评估相对而言设计较为容易,而针对主观题的动态评估设计则需要依托人工智能技术,借助自动评分和反馈提供恰当的针对个人的辅助。例如,针对口语的动态评估需要人机交互系统技术才能实现。在针对小学生的口语动态评估中,学生可先就某一话题与机器对话,机器每问一句话,便呈现两张图片供学生选择并作答。如此,既能给予学生一定的
10、选择权,又适当地限制了对话发展的方向。机器根据学生的作答情况,提供关键词或整个示范句作为提示,最后学生在没有提示的情况下再一次与机器对话。动态评估虽有诸多优势,可以评估学习者的潜在能力,但在测评中使用并不普遍。2.隐形评估Shute 追溯了隐形评估的演变7。隐形评估紧密嵌入数字学习并作为学习体验的一部分,学习者并没有意识到他们在完成评估。隐形评估的主要目标是提供沉浸式的学习体验,通常用于游戏化的学习产品中,学习者的体验不会被单独的评估打断。在一个成熟的自适应学习系统中,学习和评估是相辅相成、无缝融合的,系统不提供正式的评估,学习者也不会意识到学习和评估活动之间有任何明确的划分。系统通过大数据分
11、析检测学习者的背景特点,以及学习者与系统中各种标记内容的交互方式,并尝试将同样的方式推荐给具有相似背景的其他学习者。在自适应学习环境中,能力模型应重新构建为细粒度的知识能力图谱,其中包括知识和能力节点,以及它们之间如何相互关联。通过分析学习者的输出或者学习过程,知识能力图谱中的知识和技能可以评估为有/无,或是差/一般/好/非常好。这些评估构成证据模型的一部分,然后借助贝叶斯或 IRT 等测量方法不断更新学习者对目标知识能力图谱的掌握水平。3.其他几类评估大多数自适应学习系统提供分级学习内容,使用分级评估预测每个学习者起始的水平。分级评估最重要的目的是借助高效的评估题型和心理测量模型,快速精准地
12、测出学习者的水平。分级评估应该使用难度跨度大、区分度高的题目,或是使用自适应测量模型。学业阶段性评估旨在衡量学习者在学习过程中的进步,设计该类评估应当选取涵盖课程核心技能的代表性试题。学业阶段性评估不必使用高区分度的题目,大多数学生评估表现良好也是很常见的。诊断性评估提供针对一般技能的诊断,需要使用细粒度的子技能能力模型,提供关于学习者强项和弱项的有意义、信度高和操作性强的反馈信息。自我评估和同伴评估旨在提高学习者的自我效能并促进自适应学习中的协作学习,这些评估应该设计得简单并易于使用。多模态评估不同于传统的评估,可以收集有关学习者的面部表情、肢体语言和声音信息,推断他们的情绪和参与程度,进而
13、帮助调整学习内容和交互模式。(四)人工智能技术开发自适应学习系统需要的第四个专业领域是人工智能技术,主要包括四类技术,如图1所示。第一类是自动评分及反馈技术,对学习者的输出进行评估和反馈;第二类技术用于分析学习者的学习过程,如眼动追踪技术、答题过程中键盘活动记录技术,以及分析答题所用时间的技术等8-9;第三类技术可用来分析学习者的行为,如席小明:以学习者为中心的自适应学习系统的设计与评估272024年第2期面部表情及语音语调等;第四类技术可以用来支持互动性的学习任务,如用人机对话交互技术支持学习者和机器的对话10。目前人工智能技术的应用主要集中在语言处理领域,如作文及口语评分和反馈系统,这些系
14、统仍存在诸多局限。在数学和科学等领域,尚缺乏评判开放式问题的成熟的评分引擎;分析学习过程的人工智能技术应用则更少,支持交互式任务的人工智能技术仍处于发展初期。二、自适应学习系统功效的评估方法自适应学习系统功效的评估,主要采用整体评估方法和分功能评估方法5。前者侧重于根据系统整体性能和表现或用户意见来评估系统的表现11。后者则通过分解自适应学习系统,分析设计系统每个部分涉及的关键决策,并研究这些决策对整个系统表现的影响5,12。据此,在分析整个系统的表现时,可以找出具体的设计问题,如用户模型的评估存在问题或自适应规则设计不合理,导致学习内容的设计存在瑕疵。如图2所示,本文提出的评估系统功效的方法
15、围绕自适应学习系统的三个后端引擎,即用户模型、内容设计和标注模型、推荐引擎4。该自适应学习分层评估方法在概念上类似于基于论证的测评效度验证方法。在这种验证框架下,要分析测评的效度首先要构建出支持效度所需的一系列假设成立的论点,然后收集证据以支持最重要的假设成立13。以实证方法收集到的证据或是引用理论框架提供的证据可以支持不同的论点,为基于分数的解释和使用提供支持。为调查自适应学习解决方案的功效,需收集证据回答以下五个核心问题。(一)用户属性界定问题用户属性界定问题需要回答学习者属性和面部表情语气的多模态分析等AI自适应算法用户模型自动评分自动反馈眼动追踪按键记录反应时间聊天对话框口语对话系统学
16、习者行为学习者输出学习者与人工智能任务的互动学习者答题过程图1 人工智能技术在自适应学习系统中的应用内容设计和标注模型用户模型知识能力图谱学习者风格、需求和情绪状态推荐引擎系统性能和用户反应用户属性估计内容代表性用户属性界定用户交互设计用户交互效果图2 自适应学习系统的功效论证28行为的界定是否颗粒度足够细,能否支持所设计的学习内容和自适应学习规则。知识能力图谱界定细化的知识点和技能以及它们之间的关联,为自适应学习系统奠定理论基础。与支持考试设计的知识能力典型构念相比,在评估知识图谱时需要结合前述两个特点考虑以下一些问题:1)创建知识图谱依据的能力模型是什么,它是否与当前的知识能力框架契合;2
17、)知识能力图谱是否足够细化以支持内容开发及标注;3)知识能力图谱是否由足够资历的专家创建,开发流程是否严谨,图谱是否已根据学习者的数据进行了验证和修改。除知识技能之外,学习者的风格和需求也是用户模型的一部分,学习者的情绪状态则可以从前述多模态评估收集的信息中推断出来。例如,可以通过对学习者面部表情和声音的分析来了解其情绪状态,以推断学习者是否感到无聊、沮丧或是困惑,并引入相应的干预措施。(二)用户属性估计问题用户属性估计问题需要回答用户模型能否提供有意义、准确和操作性强的信息,以作为设计自适应学习的基础。为了持续更新自适应学习系统的用户模型,系统需要不断分析评估学习者的输出、答题过程和情绪反应
18、。评估用户模型有效性的相关效度问题包括:1)基于学习者的答题过程和输出所做的知识技能评估是否有效;2)从各个自适应学习练习中汇总的证据是否能够支持对学习者知识技能的准确评估;3)诊断学习者的认知和学习风格工具的准确性如何;4)多模态分析模型是否能准确地分析学习者的情绪状态。(三)内容代表性问题内容代表性问题需要回答学习内容是否经过精心设计和适当标记,以支持自适应学习系统的设计。自适应学习系统必须依赖于精心设计的学习内容才能成功,而自适应学习系统的质量取决于内容的设计和标注。内容设计和标注方式的评估涉及三方面问题:1)内容设计是否与当前的学习理论和实践契合;2)内容设计是否与知识能力图谱及用户模
19、型中的其他元素契合;3)人工或人工智能对内容的标记是否准确。无论学习系统是静态的还是自适应的,其内容都必须符合高质量设计的标准。学习内容还应根据知识能力图谱和学生模型中的其他元素进行调整,如认知风格、需求、偏好和情绪状态评估结果等。内容的标记可以由学科专家完成,或是借助人工智能技术;无论采取何种方式,内容标记的准确性都是评估学习设计和标记模型的关键指标。(四)用户交互设计问题用户交互设计问题需要回答推荐引擎能否在学习层级、顺序、内容和交互方式上提供适当的自适应学习方案。如图2所示,推荐引擎由用户模型、内容设计和标注模型共同支持,它获取有关学习者的知识能力评估和其他相关属性或状态的信息,并按照定
20、义的规则和路径提取标注内容推送给各个学习者。以下三个问题可以帮助评估自适应学习水平、路径和内容的设计:1)自适应学习级别的设计是否合理。所有自适应学习系统都尝试为学习者提供适合其水平的学习内容,在学习者感觉有所挑战的同时又不至于感到挫败,以此提供最佳的学习体验。这要求提供水平分级的评估高效且准确,能够给学习者快速匹配最适合的内容。设计是否合理可以通过分析学习者在指定级别练习中的表现、对水平匹配度的看法以及情感反应来进行判断。2)自适应路径的设计是否合理。如前所述,大多数自适应语言学习系统仅针对个人定制学习内容,对于同一级别的所有学习者来说,学习顺序或多或少保持相同;然而,在席小明:以学习者为中
21、心的自适应学习系统的设计与评估292024年第2期某些情况下,针对不同学习者类型调整学习顺序可能更有利于学习。自适应路径可以由专家界定,或通过对学习者数据的分析来确定,也可以结合两种方式。为评估推荐学习顺序的有效性,可以通过实验研究比较对照组与实验组的学习效果,以评估推荐路径的效果。3)自适应内容的设计是否高质量。自适应学习内容质量的相关问题包括:系统能否对非开放题和开放题都提供反馈,对开放题反馈的准确性如何;系统对非开放题的反馈包括哪些类型,如对或错、解题原理、提示、与正常群体的表现比较等,反馈是否合适;系统对开放题能提供什么类型的反馈,如使用的策略、答题时间和尝试次数等,反馈是否合适,是否
22、能估计不同子技能的水平并指出错误或缺陷;推荐的自适应学习内容是针对特定的练习还是代表更广泛的知识和技能,如果是后者,系统如何评估学习者对更广泛的知识和技能的总体掌握水平;系统是否根据学习者的认知和学习方式调整学习内容和形式,如何调整,调整方式是否合理;系统能否检测学习者的情绪反应并适当调整学习内容、形式和节奏。(五)用户交互效果问题用户交互效果问题需要回答自适应学习系统在系统功效和用户意见方面是否比其他的学习设计方案更高效、更有效果。不能想当然地认为自适应学习系统一定有效,贴上“适应性”或“个性化”的标签并不会让自适应学习系统比精心设计的静态学习工具更加高效。对用户模型中学习者属性和行为评估的
23、准确性以及推荐引擎的有效性可以为系统的整体功效提供一定的支持,但是从系统性能和用户感知的角度来看,需要强有力的证据来证明自适应学习系统比传统的系统更加优越。在评估系统整体功效时,可以考虑以下一些问题:1)学习者是否对适应性学习系统作出了正向反馈,从而在一定程度上提升学习的积极性和效果;2)如果教师使用自适应学习系统提供的信息来指导教学,那么教师对该系统是否作出正向反馈,能否准确地解释教师仪表盘中提供的信息并使用这些信息对学生进行更具针对性的教学指导;3)自适应学习系统是否比其他学习设计更有效、更高效。上述自适应学习系统的评估框架包括了效度验证所需要评估的一系列方面,据此就可以找到证据链中的薄弱
24、环节并予以加强,以提高整个系统的功效。总而言之,一个强大的、完全自适应的学习系统需满足以下五个条件:1)由专家基于能力模型构建细化的知识能力图谱,与相关标准/课程保持一致,并根据数据进行调整;2)精心设计学习内容并进行合适的标注,以匹配学习者的知识技能、学习和认知风格以及情绪状态;3)由专家设计,并用大数据验证及改进的自适应学习路径;4)为学习者提供准确、有意义且可操作的反馈信息,以便学习者及其教师更有针对性地学习和教学;5)与其他学习工具相比,更有效率,效果更佳。三、相关问题讨论虽然自适应学习系统设计的核心要点是提供个性化的学习级别、路径、内容和交互方式,但并不是所有的系统表现都能符合预期。
25、以学习者为先的自适应学习系统始终会将学习者的需求放在首位,以学习者为中心的评估需要简短而准确,用最高效的方式以最低的测量误差提供对学习者知识技能的评估。以学习者为中心的评估还需要给学习者提供操作性强的反馈信息,而不仅仅是分数。如果自适应学习体验以学习者为先,那么它需要适应学习者的需求、水平、个人背景、认知和学习风格,并可以根据学习者的情绪状态调整学习内容和呈现方式。总而言之,学习者的时间非常宝贵,系统应该提供最为有效的30学习路径和内容。如果一个系统可以达到以上所有要求,那么才能称之为学习者至上的系统,但现实情况中许多系统都达不到这种预期。要开发出学习者至上的系统,真正赋能学生和教师,必须从自
26、适应学习系统的核心,即基于学习和评估理论的知识技能图谱开始,学习内容的设计必须基于知识能力图谱;否则,如果学习内容的设计基础很糟糕,无论提供多么个性化的学习内容,都不会促进学习,反而是在浪费本可以用于更有意义学习的时间。评估在自适应学习系统中发挥着重要的作用,每一种评估都有各自的潜在用途和设计特点;但实际上,现有的自适应学习解决方案中各种评估的使用还没有系统化。有必要在自适应学习系统的开发团队中加入评估专家,如不能准确高效地测量学生的水平和需要提高的技能,就无法有的放矢地帮助学生提高。另一个限制高级自适应学习系统(尤其是针对复杂的技能的学习系统)开发的因素是缺乏成熟的人工智能评分和反馈技术。虽
27、然领域内已经进行了一些研究尝试,如开放性数学题目和写作的机器评分,但效果仍未达到预期,不能给学习者提供良好的用户体验。大多数自适应学习系统专注于针对学生的知识和认知能力提供自适应学习解决方案,但对学习者的动机、情绪状态和学习方式等非认知因素的关注要少得多。在设计自适应学习系统时,需要考虑如何激励学习者动机,吸引其注意力,以帮助他们取得最大的学习成果。自适应学习技术是教育科技领域的一项重要创新,但从自适应学习系统的现状来看,这项技术远非解决学习问题的灵丹妙药。大多数自适应学习系统仅针对客观题题库使用简单的自适应算法,系统提供商并没有深入研究如何开发出针对复杂技能的自适应学习解决方案。如果自适应学
28、习内容的设计和实施不当,自适应学习系统只会阻碍而非促进学习。参考文献1 BENYON D,MURRAY D.Developing adaptive systemsto fit individual aptitudesC/OL/Proceedings of the 1stInternational Conference on Intelligent User Interfaces,February 1,19932023-09-01.https:/dl.acm.org/doi/pdf/10.1145/169891.169925.2 JAMESON A.Systems that adapt to t
29、heir users:an integrative perspectiveM.Saarbrcken:Saarland University,2001.3 DURLACH P J,LESGOLD A M.Adaptive technologiesfor training and educationM.Cambridge:CambridgeUniversity Press,2012.4 XI X.Designing and evaluating assessment and learningin adaptive learning systemsJ.Language Testing andAsse
30、ssment,2022(1):94-120.5 BRUSILOVSKY P,KARAGIANNIDIS C,SAMPSON D.Layered evaluation of adaptive learning systemsJ.International Journal of Continuing Engineering Educationand Lifelong Learning,2004,14(4/5):402-421.6 POEHNER M E.Dynamic assessment:a Vygotskian approach to understanding and promoting s
31、econd languagedevelopmentM.Berlin:Springer Publishing,2008.7 SHUTE V,LU X,RAHIMI S.Stealth assessmentM.New York:Routledge,2022.8 CONKLIN K,PELLICER SNCHEZ A.Using eye-tracking in applied linguistics and second language researchJ.Second Language Research,2016,32(3):453-467.9 DEANE P,ZHANG M.Exploring
32、 the feasibility of usingwriting process features to assess text production skillsR.ETS Research Report No.RR-15-26.Princeton,NJ:Educational Testing Service,2015.10 SUENDERMANN-OEFT D,RAMANARAYANAN V,ZHOU Y,et al.A multimodal dialog system for language assessment:current state and future directionsR
33、.ETS Research Report Series,2017.11 CHIN D.Empirical evaluation of user models and user-adapted systemsJ.User Modelling and User Adapted席小明:以学习者为中心的自适应学习系统的设计与评估312024年第2期Interaction,2001,11(1/2):181-194.12 WEIBELZAHL S.Evaluation of adaptive systemsM.Fribourg:University of Education Freiburg,2002.1
34、3 KANE M T.ValidationM/BRENNAN R B.Educational Measurement.4th ed.Westport:Praeger,2006:17-64.Designing and Evaluating A Learner-First Adaptive Learning SystemXI Xiaoming(Hong Kong Examinations and Assessment Authority,Hong Kong 999077,China)Abstract:Individualization,customization and adaptivity ha
35、ve become the catchwords in education.However,learner-first adaptive learning solutions,where a learners needs and wants are prioritized every stepof the way when he/she interacts with the assessments and learning content,are rare.This is becausedeveloping such solutions requires interdisciplinary t
36、alents in assessment,learning,cognitive and non-cognitive science,AI,and many more,which,in reality,is a luxury for most development teams.How do we ensure a learner-first assessment and learning experience?In designing various types ofassessments in adaptive learning,we want the assessments to be e
37、fficient yet precise,provide actionableinformation,and support a positive assessment taking experience.A learning experience optimized for anindividual learner must meet his/her unique learning needs,and be tailored to his/her level,dynamicknowledge and skill profiles,cognitive and learning styles,a
38、nd constantly changing affective states to facilitatethe most speedy and effective learning.This article discusses the four areas of science behind an adaptive learning system and some of thechallenges we are facing in developing the science.It provides an overview of different types of assessmentus
39、ed in adaptive learning and an analysis of the assessment approach,priorities,and design considerations ofeach to optimize its use in adaptive learning.It then proposes a framework for evaluating the efficacy of anadaptive learning system.Through decomposing the architecture of an adaptive learning
40、system,it analyzes thechain of inferences and key questions to answer to support its overall efficacy,including user propertyrepresentation,user property estimation,content representation,user interaction representation,and userinteraction impact.It concludes with thoughts on high-priority research and development to provide learner-first systems to fully empower our learners.Keywords:adaptive learning;personalized learning;assessment science;evaluation of adaptive learningsystem;AI technology(实习编辑:刘昊林)32