增值评价中的天花板和地板效应分析.pdf

资源描述

1、收稿日期：基金项目：作者简介：2023-09-20广东省 2022 年度教育科学规划课题（教育综合改革专项）“增值评价模型的理论和应用研究”（2022JKZG082）骆文淑，女，佛山科学技术学院特聘教授；陈方丁，男，广东省教育考试院社会考试与考试评价处副处长。骆文淑1陈方丁2（1.佛山科学技术学院，广东佛山 528225；2.广东省教育考试院，广州 510635）增值评价中的天花板和地板效应分析摘要：天花板和地板效应是增值评价中经常会涉及的问题。其不仅与测验本身的天花板和地板效应相联系，还与增值评价模型的选择有关。残差增分模型和学生成长百分等级模型是增值评价中常用的条件状态模型，其所估计的个体

2、成长是与同等水平学术伙伴比较的相对成长，在一定程度上可以破解天花板和地板效应问题。基于两组考生的中、高考数据进行分析比较，残差增分模型和学生成长百分等级模型在解决天花板和地板效应问题上的有效性得到了验证。研究结果为研究者和教育评价工作者选择增值模型提供了参考。关键词：增值评价；增值模型；天花板效应；地板效应【中图分类号】G405【文献标识码】A【文章编号】1005-8427（2024）03-0087-11DOI:10.19360/ki.11-3303/g4.2024.03.0112020 年，中共中央、国务院发布的深化新时代教育评价改革总体方案提出要扭转不科学的教育评价导向，并指出要“改进

3、结果评价，强化过程评价，探索增值评价，健全综合评价”1，为推进我国教育评价改革指引了方向。与关注单次学业成就的结果评价不同，增值评价关注个体在一段时间内所获得的成长，并试图对其成长变化进行量化和解释，有助于提升评价的全面性、客观性和公平性2-4。用于增值评价的统计模型称为成长模型（growth model）或增值模型（value-added model）。两者含义有微妙的差别，前者主要关注个体的成长变化，而后者旨在对个体的成长变化进行解释，尤其是学校或教师对学生成长的增值效应5-7。另外，不同增值模型计算的成长变化有相对和绝对之分。例如，基于增分模型（gain score model）计算的成

4、长分数代表绝对成长，即个体能力水平的绝对变化，但这一模型要求对不同时间点上的测验成绩进行垂直等值，在现实中往往难以做到。而增值评价中常用的条件状态模型（conditional status model），如残差增分模型（residual gain model）和学生成长百分等级模型（student growth percentile model）等，计算的成长分数属于相对成长。相对成长为零不代表没有成长，只表示当前分数与基于前期分数所估计的预期值没有差别。增值评价中一个经常引起关注的问题是因高分学生成长空间受限产生的天花板效应（ceiling effect）8-10。尤其是把学生成长和教师效能

5、联系起来时，这一问题就变得非常突出和敏感。例如，在美国纽约州就曾有教师因为在增值评价中Journal of China Examinations2024年第3期No.3,20242024年第3期获得低分而提出诉讼并获得成功，法庭作出胜诉裁决时一个重要考虑因素就是增值评价中的天花板效应问题11。与天花板效应相对应的是与低分学生成长变化相关的地板效应（flooreffect）。关于增值评价中的天花板和地板效应还有待进一步研究。第一，需要进一步厘清增值评价中天花板和地板效应的内涵，尤其是增值评价中的天花板和地板效应与测验的天花板和地板效应的关系；第二，不同增值模型对个体成长的估计方法如何影响天花板和

6、地板效应值得深入分析。本文首先阐释增值评价中天花板和地板效应的内涵，并指出常用的简单增值评价方法（标准分变化法和位次变化法）如何导致天花板和地板效应。其次，进一步分析两种条件状态模型（残差增分模型和学生成长百分等级模型）如何通过估计相对成长有效地处理天花板和地板效应问题，并基于两组中、高考数据验证这一分析结果。一、天花板效应和地板效应的内涵增值评价中至少包含两次测验成绩，并在此基础上通过增值模型来量化个体的成长变化。传统意义上，天花板效应指的是由于测验相对容易导致相当一部分个体获得最高或接近最高分，因此无法反映他们的真实能力水平的现象12-13。类似地，地板效应指的是由于测验难度高而导致相当一

7、部分个体获得最低或接近最低分，因此无法反映他们的真实能力水平的现象。从这一定义上看，天花板和地板效应可以发生在任何单次测验上，并不专属于增值评价的范畴。与测验的天花板和地板效应含义不同，增值评价中的天花板和地板效应关注的是成长变化的空间受限问题，高分端学生的提升空间受限则导致天花板效应，而低分端学生的下降空间受限则导致地板效应8,11。增值评价中的天花板和地板效应与测验的天花板和地板效应既有区别，又有联系。增值评价基于至少两次测验成绩，如果测验具有天花板和地板效应，就可能影响对个体成长的估计，带来增值评价中的天花板和地板效应。例如，假设第二次考试难度很低，第一次考试中至少一半人在第二次考试中都

8、达到或接近最高分，第二次考试就无法区分中等到高分端学生真实的能力水平，那么不管基于哪种增值模型，高分端学生的成长空间都会受到限制。在一些重要的考试中，这种现象出现的可能性较小。然而，即使测验本身没有天花板和地板效应问题，增值评价方法或模型的选择也可能带来成长变化空间受限问题。例如，很多一线评价工作者常用标准分变化法和位次变化法进行增值评价，其中个体成长是由个体在常模群体中相对位置的变化来表示。如下所述，这种对个体成长的量化方式本身就会导致高分端和低分端学生成长变化空间受限问题。标准分和位次都属于常模参照分数，反映了个体在常模群体中的相对位置。在使用标准分变化法的增值评价中，假设一考生群体中有3

9、0人在第一次考试上的标准分T分数达到最高分80分，那么这一部分人在第二次考试上的T分数最高也只能是80分，因此没有进一步提升空间。同样，假设有30人在第一次考试上的标准分T分数达到最低分20分，那么这一部分人在第二次考试上的T分数最低也只能是20分，因此没有下降空间。类似地，在基于位次变化法的增值评价中，假设有 30 人在第一次考试上是第一名（或最高等级），那么这一部分人在第二次考试上的最高位次也只能是第一名，因此没有进一步提升空间。同样，假设有 30人在第一次考试上是最后一名（或最低等级），那么这一部分人在第二次考试上的最低位次也只能是最后一名，因此没有下降空间。88二、条件状态模型对天花板

10、和地板效应问题的解决方法在增值评价中，除了基于垂直等值的增分模型，条件状态模型是常用的另一类增值模型5-7。条件状态模型对个体当前状态的确定是以过去成绩为条件的，换句话说，基于过去成绩来预测当前成绩进而确定个体是否成长，如果当前成绩超出预期值，说明有成长，如果当前成绩低于预期值，则说明有退步或者成长不足。条件状态模型对当前成绩的预测，并不是简单地根据个体分数不变或在常模群体中的相对位置不变来确定，而是使用统计模型估计出来的。条件状态模型主要包括残差增分模型和学生成长百分等级模型。下面分析这两种增值模型对个体成长的估计如何在一定程度上克服增值评价中的天花板和地板效应问题。（一）残差增分模型残差增

11、分模型通过线性回归分析来估计个体成长。假设X是第一次考试分数，Y是第二次考试分数，Y是基于第一次考试分数对第二次考试分数的预期，那么Y=a+bx；其中，a和b分别是截距和回归系数，Y代表对Y的预测值。基于最小二乘法的原理，Y与Y之差的平方和要达到最小，因此Y=a+bx代表了X和Y 之间的平均线性趋势。如果线性回归的假设（线性、残差独立、符合正态分布且方差齐性）得到满足，那么Y代表每个X值对应Y值的平均数的最佳估计，见图 1。个体成长G 即为Y与Y的差值：G=Y-Y=Y-（a+bx）；即个体成长为第二次考试实测分数和基于第一次考试成绩的预测分数之间的残差值。如果残差值为正，则说明相对于预测值有成

12、长，如果残差值为负，则说明相对于预测值有退步或成长不足。基于残差增分模型，假设在一考生群体中有30人在第一次考试上获得最高分（属于最高分的学术伙伴子群体），如果第二次考试对高水平学生具有良好的区分度，那么这30人在第二次考试上分数很可能出现一定的差异。假设这30人第二次考试的平均分数是90分，如果线性回归的假设得到满足，对这30人在第二次考试中的平均分数预期值 Y接近 90。在这 30人中，有的人第二次考试分数在回归线以上，有的人第二次考试分数在回归线以下，两次考试的成长变化用G=Y-Y表示，G有正有负，所以基于线性回归模型，即使第一次考试达到最高分的学生仍然有提升空间。除非第二次考试过于容易

13、，缺乏对高水平学生的区分度，否则基于残差增分模型，不太可能出现明显的天花板效应。类似地，假设在一考生群体中有30人在第一次考试上获得最低分（属于最低分的学术伙伴子群体），如果第二次考试对低水平学生具有良好的区分度，那么这30人在第二次考试上分数很可能出现一定的差异。假设这30人第二次考试的平均分数是10分，如果线性回归的假设得到满足，对这30人在第二次考试中的平均分数预期值 Y接近 10。在这 30人中，有的人第二次考试分数大于预期值，有的人第二8060402001009070503010806040201009070503010Y=a+bx线性回归线YX图1 线性回归模型骆文淑等：增值评价

14、中的天花板和地板效应分析892024年第3期次考试分数小于预期值，两次考试的成长变化用G=Y-Y表示，G有正有负，所以基于残差增分模型，即使第一次考试达到最低分的学生仍然有下降空间。除非第二次考试非常难，缺乏对低水平学生的区分度，否则基于残差增分模型，不太可能出现明显的地板效应。（二）成长百分等级模型学生成长百分等级模型通过分位数回归得到学生的成长百分等级14。假设X是第一次考试分数，Y是第二次考试分数，Y是基于第一次考试分数对第二次考试分数的预期，那么Y=a+bx（）；其中，a和b分别是截距和回归系数，是Y上的分位点（01），决定了在Y的哪个分位点上进行回归。分位数回归常采用加权最小一乘准则

15、（权重由值决定）来估计a和b，使得Y与Y的加权绝对差值之和达到最小15。学生成长百分等级模型将Y从低到高分成100个分位点，产生100条回归线，进而将处在每两条回归线中间的点归为一个百分等级，共99个百分等级。在学生成长百分等级模型中，基于第一次考试成绩对第二次考试成绩的预测值Y可以用中位数回归来表示5。如果一名学生第二次考试分数靠近中位数回归线，这名学生第二次考试成绩完全符合预期（不升不降），成长百分等级为50，即在第一次考试同等水平的考生中，这名学生在第二次考试中的表现不低于50%的学术伙伴。如果一名学生的成长百分等级大于50，则说明这名学生第二次考试成绩相比预期有进步，如果一名学生的成长

16、百分等级小于50，则说明这名学生第二次考试成绩相比预期有退步。学生成长百分等级模型不要求数据满足线性回归的假设，但是分位数回归相对复杂，且对样本量的要求较大。我国有学者基于学生成长百分等级模型的原理提出了简易成长百分等级模型9。简易成长百分等级模型不需要估计多条回归线，而是直接根据第一次考试成绩划分学术伙伴子群体，然后根据第二次考试成绩，计算个体在相应学术伙伴子群体中的百分等级，因此属于描述统计。根据该模型，首先将学生按照第一次考试的成绩进行排序，计算每个学生的百分等级，处于每个百分等级的所有学生被视为在第一次考试上同等水平的学术伙伴，那么在每个学术伙伴子群体内某学生在第二次考试上的百分等级，

17、即为该学生的成长百分等级，成长百分等级为50表示不进不退，成长百分等级大于50则有进步，成长百分等级小于50表示不进反退。基于学生成长百分等级模型，假设一考生群体中有30人在第一次考试上获得最高分（属于最高分的学术伙伴子群体），如果第二次考试对高水平学生具有良好的区分度，那么这30人在第二次考试上分数很可能出现一定的差异，部分人在中位数回归线（或简易成长百分等级模型中的中位数）以上，部分人在中位数回归线（或简易成长百分等级模型中的中位数）以下，也就是成长百分等级有的大于50，有的小于50。所以基于学生成长百分等级模型，即使第一次考试达到最高分的学生仍然有提升空间。除非第二次考试过于容易，缺乏对

18、高水平学生的区分度，否则基于学生成长百分等级模型，不太可能出现明显的天花板效应。类似地，假设一考生群体有30人在第一次考试上获得最低分（属于最低分的学术伙伴子群体），如果第二次考试对低水平学生具有良好的区分度，那么这30人在第二次考试上分数很可能出现一定的差异，有的人会在中位数回归线（或简易成长百分等级模型中的中位数）以上，有的人会在中位数回归线（或简易成长百分等级模型中的中位数）以下，也就是成长百分等级有的大于50，有的小于50。所以基于学生成长百分等级模型，即使第一次考试达到最低分的学生仍然90有下降空间。除非第二次考试非常难，缺乏对低水平学生的区分度，否则基于学生成长百分等级模型，不太可

19、能出现明显的地板效应。三、基于中、高考数据的验证分析从以上分析可以看出，相比基于标准分变化和位次变化的增值评价方法，残差增分模型和学生成长百分等级模型对个体成长的估计方式不同。基于标准分变化和位次变化的增值评价方法所计算的个体成长分别是前后两次考试的标准分之差和位次之差。残差增分模型和学生成长百分等级模型所估计的个体成长是与第一次考试同等水平考生（学术伙伴）相比的成长，因此属于相对成长（normative growth）14,16。由于残差增分模型和学生成长百分等级模型所估计的个体成长是在同等水平考生子群体中的相对成长，因此能够较好地破解天花板和地板效应。下面笔者进一步通过两组中、高考数据来验

20、证这一分析结果。（一）数据来源研究数据源于广东省某地市2018年的中考成绩和2021年的高考成绩。广东省是全国第三批高考综合改革试点的8个省市之一，新高考从2021年起采用“3+1+2”方案，其中“3”为全国统考科目语文、数学和外语，“1”为物理、历史科目中选择1科，“2”为化学、生物、思想政治和地理4个科目中选择2科17。本研究包含两组数据，其中第一组数据涉及普通类物理考生的中考和高考成绩，第二组数据涉及普通类历史考生的中考和高考成绩。在剔除异常数据（中考总分为0、高考总分为0、高考应届标为往届）、非本市学校毕业考生、兼报艺体类科目考生，以及考生少于10人的学校后，第一组数据包括来自57所高

21、中学校的普通类物理考生19 229人，第二组数据包括来自59所高中学校的普通类历史考生10 860人。（二）统计分析本研究使用4种增值评价方法计算学校水平上的增值分数，并在此基础上比较4种增值评价方法的天花板和地板效应。在使用标准分变化法的增值评价中，首先将中考和高考原始分数转换为T分数（平均数为50，标准差为10），并计算每所学校T分数的平均分，然后计算每所学校高考与中考T分数的平均分之差来表示学校增值分数。在使用位次变化法的增值评价中，首先按照中考和高考T分数的平均分对学校进行排序，然后计算每所学校中考和高考位次之差来表示学校增值分数。在使用残差增分模型的增值评价中，将中考分数作为预测变量

22、，高考分数作为结果变量，在学生水平上进行线性回归（最小二乘法），并获得高考实测分数和预测分数之间的残差值，每所学校学生残差值的平均数即学校增值分数。在使用简易成长百分等级模型的增值评价中，首先按照中考分数将学生分成101个等级（0100），同处一个百分等级的学生构成一个学术伙伴子群体，然后基于高考成绩来计算每个子群体内各学生的百分等级，即学生成长百分等级，每所学校学生成长百分等级的中位数为学校增值分数。研究使用普通类物理和历史考生的中、高考数据分别对这4种增值评价方法的天花板和地板效应进行分析比较。（三）分析结果1.基于普通类物理考生数据的分析结果图 2图 5给出基于普通类物理考生的中、高考成

23、绩所计算的各所学校的增值分数。其中，对学校按照中考平均分进行了排序，1 为中考平均分最高的学校，57 为中考平均分最低的学校。研究分别选取中考最高分的6所学校和中考最低分的6所学校（各约占10%）作为高分学校和低分学校，比较4种增值评价方法的天花板和地板效应。骆文淑等：增值评价中的天花板和地板效应分析912024年第3期标准分变化值学校图2 基于标准分变化法的学校增值分数（物理）位次变化值图3 基于位次变化法的学校增值分数（物理）学校线性回归残差平均数学校图4 基于残差增分模型的学校增值分数（物理）学校图5 基于简易成长百分等级模型的学校增值分数（物理）成长百分等级中位数92从图2可以看出，

24、使用标准分变化法的增值评价中，6所中考高分学校的增值分数均为负值，只减不增，而在6所中考低分学校中，只有1所学校的增值分数为负值，其余5所学校的增值分数为正值，出现明显的天花板和地板效应。从图3可以看出，基于位次变化法的增值评价中，6所中考高分学校和6所中考低分学校名次基本没有变化，增值分数等于或接近0，也出现明显的天花板和地板效应。从图4可以看出，基于残差增分模型的增值评价中，6所中考高分学校中有4所平均残差值为正，而6所中考低分学校的平均残差值均为负，因此高分学校仍然有提升空间，而低分学校仍然有下降空间，天花板和地板效应不明显。从图5可以看出，基于简易成长百分等级模型的增值评价中，6所中考

25、高分学校中有3所成长百分等级中位数大于50，而6所中考低分学校的成长百分等级中位数都低于50，因此高分学校仍然有提升空间，而低分学校仍然有下降空间，天花板和地板效应不明显。2.基于普通类历史考生数据的分析结果图6图9是基于普通类历史考生的中、高考成绩所计算的各所学校的增值分数。同样对学校按照中考平均分进行了排序，1为中考平均分最高的学校，59为中考平均分最低的学校。研究分别选取中考最高分的6所学校和中考最低分的6所学校（各约占10%）为高分学校和低分学校，来比较4种增值评价方法的天花板和地板效应。从图6可以看出，使用标准分变化法的增值评价中，6所中考高分学校的增值分数均为负值，只减不增，6所中

26、考低分学校的增值分数均为正值，只增不减，出现明显的天花板和地板效应。从图7可以看出，基于位次变化法的增值评价中，6所中考高分学校和6所中考低分学校名次基本没有变化，增值分数等于或接近0，尤其是6所低分学校中有 5所学校名次变化为 0,存在有明显的天花板和地板效应。从图8可以看出，基于残差增分模型的增值评价中，6所中考高分学校中有4所平均残差值为正，而6所中考低分学校中标准分变化值学校图6 基于标准分变化法的学校增值分数（历史）图7 基于位次变化法的学校增值分数（历史）学校位次变化值骆文淑等：增值评价中的天花板和地板效应分析932024年第3期有4所平均残差值为负，因此高分学校仍有提升空间，而

27、低分学校仍有下降空间，天花板和地板效应不明显。从图9可以看出，基于简易成长百分等级模型的增值评价中，6所中考高分学校中有3所成长百分等级中位数大于50，而6所中考低分学校中有4所成长百分等级中位数低于50，因此高分学校仍有提升空间，而低分学校仍有下降空间，天花板和地板效应不明显。从以上分析可知，在两组中、高考数据中，标准分变化法和位次变化法均带来明显的天花板和地板效应问题，而残差增分模型和简易成长百分等级模型在处理天花板和地板效应上更具优势。表1给出了两组数据中4种增值分数之间的等级相关系数。总体上，残差增分模型和简易成长百分等级模型所计算的增值分数具有高度相关性（r=0.92；0.85）。相

28、对来说，基于标准分变化法和位次变化法所得到的增值分数相关较低，其中尤其是标准分变化法所计算的增值分数与另外两种模型的增值分数相关较低。四、结论及讨论研究者在选择增值模型时，除了考虑模型复杂程度、数据特征及在实践中的可行性等因素，还需要考虑模型是否会带来天花板和地板效应图9 基于简易成长百分等级模型的学校增值分数（历史）学校成长百分等级中位数线性回归残差平均数学校图8 基于残差增分模型的学校增值分数（历史）标准分变化值位次变化值线性回归残差平均数成长百分等级中位数标准分变化值0.65*0.58*0.44*位次变化值0.72*0.86*0.70*线性回归残差平均数0.58*0.82*0.85*成长

29、百分等级中位数0.50*0.79*0.92*表1 不同增值分数间的等级相关注：*表示p0.01.对角线以上是基于普通类物理考生数据的学校增值分数的相关系数，对角线以下是基于普通类历史考生数据的学校增值分数的相关系数。94问题。本研究澄清了增值评价中天花板和地板效应的内涵，并指出增值评价中的天花板和地板效应可能与测验的天花板和地板效应有关，也可能与增值模型的选择有关。残差增分模型和学生成长百分等级模型是增值评价中常用的条件状态模型，由于其估计的个体成长是与同等水平学术伙伴比较的相对成长，能够有效地破解增值评价中的天花板和地板效应问题。相比一线评价工作者常用的标准分变化法和位次变化法，这两种模型在

30、解决天花板和地板效应问题上的优势在普通类物理和普通类历史两组中、高考数据中均得到了验证。不同增值模型对个体成长的估计方法不同，导致出现天花板和地板效应上的差异。在基于标准分变化法和位次变化法的增值评价中，个体成长分别由前后两次考试的标准分之差和位次之差来表示，因此成长代表了个体两次考试成绩在常模群体中位置的变化。第一次考试最高分的学生无论在标准分上还是位次上都缺乏提升空间，第一次考试最低分的学生无论在标准分上还是位次上都缺乏降低空间，因此模型对个体成长的计算本身会带来天花板和地板效应。残差增分模型和学生成长百分等级模型所估计的个体成长是与同等水平学术伙伴比较的相对成长14。相比标准分变化值、位

31、次变化值，使用与同等水平学术伙伴比较的相对成长作为个体成长指标，不仅会让不同水平学生的成长更具可比性，而且还会在一定程度上解决增值评价中的天花板和地板效应问题。在残差增分模型和学生成长百分等级模型中，将个体当前分数与同等水平学术伙伴的当前分数预期值相比，如果超出预期值，则有所进步，如果低于预期值，则有所退步。在残差增分模型中，这一预期值是基于线性回归估计得来，反映了对同等水平学术伙伴当前分数平均数的最佳估计；在学生成长百分等级模型中，这一预期值是基于中位数回归估计得来，反映了对同等水平学术伙伴当前分数中位数的最佳估计5。在基于残差增分模型和学生成长百分等级模型的增值评价中，即使在第一次考试中考

32、分非常高（或非常低）的学生，只要第二次考试对这部分学生有良好的区分度，那么在第二次考试中，这部分学生的分数很可能会出现有的高于预期值、有的低于预期值的现象，因此高分学生仍有提升空间、低分学生仍有降低空间。在普通类物理和普通类历史两组考生的中、高考数据中，标准分变化法和位次变化法所计算的学校增值分数均出现明显的天花板和地板效应，而残差增分模型和简易成长百分等级模型所计算的学校增值分数并没有出现明显的天花板和地板效应。残差增分模型和学生成长百分等级模型都属于条件状态模型，不要求对测验数据进行垂直等值，但它们对数据的要求不同。基于线性回归的残差增分模型要求满足线性、残差独立、符合正态分布且方差齐性的

33、假设，否则计算的增值分数可能具有一定的偏差。相比残差增分模型，学生成长百分等级模型具有更大的灵活性，但是由于需要估计多条回归线，对样本量的要求较大5。简易成长百分等级模型，虽然没有对样本量有明确的要求9，但属于描述统计，缺乏充分利用测验数据对当前分数预期值的估计。需要指出的是，学生的分数变化可能受到多种因素的影响，因此更加复杂的增值模型（如多变量模型）试图在不同水平上控制更多变量。即便如此，单靠统计模型也无法完全控制所有无关干扰因素，因此美国教育研究协会提出要避免单独使用增值评价分数来评价教师或学校效能18。增值评价在一定程度上可以用来帮助解释学校和教师对学生成长的贡献，在我国增值评价更是一种

34、关注师生成长的发展性评价理念19，教育工作者要关注如何在增值评价的基础上促进教学改革和教师的专业发展。骆文淑等：增值评价中的天花板和地板效应分析952024年第3期参考文献1 中共中央国务院印发深化新时代教育评价改革总体方案 EB/OL.（2020-10-13）2023-07-25.http:/ 陈安琪,关丹丹.几种增值评价方法的对比分析及实证研究J.中国考试,2022（9）:54-62.3 周瑶,陈星贝.增值性评价:来自美国田纳西州的核心经验J.中小学管理,2020（10）:11-15.4 辛涛,张文静,李雪燕.增值评价的回顾与前瞻J.中国教育学刊,2009（4）:40-43.5 CA

35、STELLANO K E,HO A D.A practitioners guide togrowth modelsM.Council of Chief School Officers（CCSSO）,2013:89-102.6 谢小庆.终身成长:创新教育新思维M.北京:清华大学出版社,2020:90-162.7 王晓平,齐森,谢小庆.美国学校“成长测量”的7种主要方法J.中国考试,2018（6）:21-27.8 杨志明,彭丽仪,李洋.增值评价中的天花板效应及其破解思路J.教育测量与评价,2020（12）:3-7.9 徐路明.基于简易式成长百分等级模型的学业增值评价J.中国考试,2021（3）:9

36、-14.10 王帅鸣,姚守梅,王梦,等.基于成长百分等级模型开展增值评价的实证研究J.中国考试,2020（9）:46-51.11 RESCH A,ISENBERG E.How do test scores at theceiling affect value-added estimates?J.Statistics andPublic Policy,2018,5（1）:1-16.12 UTTL,B.Measurements of individual differences:Lessons from memory assessment in research and clinicalpract

37、iceJ.Psychological Science,2005,16（6）:460-467.13 WANG L,ZHANG Z,MCARDLE J J,SALTHOUSE TA.Investigating ceiling effects in longitudinal dataanalysisJ.Multivariate Behavioral Research,2008,43（3）:476-496.14 BETEBENNER D.Norm-and criterion-referencedstudent growthJ.Educational Measurement:Issuesand Prac

38、tice,2009,28（4）:42-51.15 焦璨,王宣承,张敏强,等.分位数回归:心理统计方法的重要补充J.中国考试,2009（1）:9-15.16 CASTELLANO K E,HO A D.Contrasting OLS andquantile regression approaches to student“growth”percentilesJ.Journal of Educational and Behavioral Statistics,2013,38（2）:190-215.17 臧铁军.教育考试与评价M.北京:中国青年出版社,2020:42-46.18 American E

39、ducational Research Association.AERAstatement on use of value-added models（VAM）forthe evaluation of educators and educator preparationprogramsJ.Educational Researcher,2015,44（8）:448-452.19 任玉丹.有效还是有偏:美国教师增值评价引发的质疑及对我国探索增值评价的启示J.中国考试,2022（4）:34-43.Analysis of Ceiling and Floor Effects in Value-added

40、AssessmentLUO Wenshu1,CHEN Fangding2（1.Foshan University,Foshan 528225,Guangdong,China;2.Education Examinations Authority ofGuangdong Province,Guangzhou 510635,China）Abstract:Ceiling and floor effects are issues frequently concerned in value-added assessment.Ceiling andfloor effects in value-added a

41、ssessment are related not only to ceiling and floor effects in tests,but also to theapplication of value-added models.The residual gain model and student growth percentile model areconditional status models commonly employed in value-added assessment.The estimated individual growth inthese two model

42、s represents normative growth compared to academically similar peers with comparable prior96（责任编辑：周黎明）assessments,including its origins,value,and innovative transformations.Traditional methods of educationalevaluation are increasingly inadequate to meet the complex demands of contemporary education.

43、Artificialintelligence technology offers a more scientific,objective,and professional alternative.Furthermore,thetransformation in students and teachers capabilities has become a significant direction for the reform ofeducational assessment.Technologies such as big data,adaptive learning,deep learni

44、ng,and intelligentanalytics play pivotal roles in educational assessment.Additionally,diversification,personalization,data-driven approaches,process orientation,and a focus on higher-order thinking are becoming significant trendsin educational assessment.The transformations brought by the era of art

45、ificial intelligence not only enhancethe efficiency and precision of educational assessments but also pave new pathways for the modernization andinnovative development of the educational assessment system.Keywords:artificial intelligence;educational assessment;cognitive psychological model;capabilit

46、y structure（责任编辑：徐奉先）（上接第17页）scores,thereby partially resolving the issues associated with ceiling and floor effects in value-addedassessment.By analyzing Zhongkao and Gaokao data from two distinct student groups,this study providesempirical support for the efficacy of the residual gain model and student growth percentile models inaddressing ceiling and floor effects.Assessment scholars and practitioners can refer to these findings whenselecting appropriate value-added models.Keywords:value-added assessment;value-added model;ceiling effect;floor effect骆文淑等：增值评价中的天花板和地板效应分析97

展开阅读全文