语言测试标准设定研究现状与展望.pdf

资源描述

1、57 2024 年第一辑总第四辑语言测试标准设定研究现状与展望*闵尚超沈吉利浙江大学提要：本文首先简要梳理标准设定的背景，接着介绍接受型和产出型考试常用的标准设定方法以及选择方法时应考虑的因素，随后重点讨论标准设定过程中普遍存在的若干挑战，如标准设定的信度和效度问题，以及认知诊断测试、专门用途英语测试和综合型语言测试标准设定中存在的问题，并据此探讨未来的研究方向，以期对研究者有所启迪。关键词：标准设定；语言测试；认知诊断测试；综合型语言测试 *本文系 2022 年度浙江省哲学社会科学规划“之江青年理论与调研专项课题”“语言测评标准设定模式的再审视：从安戈夫法到书签法”（课题编号：22

2、ZJQN16YB）的阶段性成果。1.概述标准设定是指基于不同级别描述语设定一个或多个临界分的过程（Cizek 2001）。尽管标准设定研究 1950 年左右就已在教学领域兴起，但直至 2002 年美国正式签署不让一个孩子落后法案后，标准设定才开始在语言测试领域得到规范应用。随后，以语言考试与欧洲语言共同参考框架对接手册的发布为标志，以标准设定为核心的对接研究在全球范围内迅速展开，例如托福与欧洲语言共同参考框架（以下简称欧框）（Tannenbaum&Wylie 2008；Tannenbaum&Baron 2011；Papageorgiou et al.2015），雅思与欧框（Lim et a

3、l.2013），雅思、普思与中国英语能力等级量表（以下简称量表）的对接（Dunlea et al.2019；蔡宏文 2019；闵尚超 2019）等。推进标准设定研究至关重要，其意义主要体现在：1）有利于增强考试成绩的可解释性，帮助考生、教师等更充分地了解分数背后所反映的语言能力，并为教师提供依据以开展针对性教学；2）有利于更好地发挥标准对考试开发的指导作用，帮助考试开发者发现考试中存在的问题，从而改进考试设计，提升考试质量；3）有利于促进对接结果的合理使用，保障学习成果在不同教育背景下的沟通互认（金艳等 2022）。在此背景下，本文以语言测试领域为焦点，通过回顾标准设定相关实践和研究，探讨标准

4、设定实践的现存问题和未来研究方向，以期对研究者有所启发，从而推进标准设定科学化进程。58 2024 年第一辑总第四辑2.标准设定方法简介标准设定方法为整个标准设定流程设定基调，因此选择合适的标准设定方法至关重要。目前，标准设定方法已超过一百多种（揭薇 2019）。与此同时，标准设定的新方法层出不穷，如诊断剖析法（Diagnostic Profiles Method）（Skaggs et al.2018）、试题描述语匹配法（Item-Descriptor Matching Method）辅以标杆分析法（Benchmarking Method）（Harsch&Kanistra 2020）等。在实

5、际运用中，标准设定的方法因题型差异等而有所不同，下面笔者将分别介绍接受型考试和产出型考试中常用的标准设定方法。2.1 接受型考试中常用的标准设定方法接受型考试常采用选择反应式的题型，因此其标准设定以试题中心法为主，如Angoff 法（Angoff 1971）及其衍生方法和书签法（Bookmark Method）（Lewis et al.1996）等。Angoff 法是目前使用最为广泛的方法之一，在托福和雅思系列考试中都备受青睐（如Tannenbaum&Wylie 2008；Dunlea et al.2019）。其核心任务为估测“最低能力考生”（Just Qualified Candidate，

6、JQC）答对每道题的概率。Angoff 法的优点主要在于易于理解和实测数据收集简便（Tannenbaum&Cho 2014）。其缺点则主要集中在预测 JQC 答对每道题的具体概率或具体分数难度较大（Hsieh 2013；Shin&Lidster 2017），以及专家对于不熟悉的测试内容往往会人为夸大预测难度（Clauser et al.2016）等。为降低预测难度，书签法应运而生。该方法依据项目反应理论，事先将试题按从易到难排列于有序试题册（Ordered Item Booklet，OIB）中。专家只需在分析每道试题内容和难度的基础上，将书签放置于 OIB 中的适当位置，使得 JQC 正确回答

7、书签位置前所有题目的概率至少达到某个预先设定的概率值（Response Probability，RP）。但使用书签法时，试题难度值变化会导致专家判断的临界值产生大幅度漂移（Clauser et al.2017；闵尚超 2019）。此外，书签法的争议焦点还集中于 RP 值的选择（Baldwin et al.2020）和试题抽样方式（Tiffin-Richards et al.2013）等。2.2 产出型考试中常用的标准设定方法产出型考试以建构反应式的题型为主，更多地运用考生中心法，如分析判断法（Analytic Judgment Method）（Plake&Hambleton 2001）和改良表

8、现剖析法（Modified Performance Profile Method）（Hambleton et al.2000）。雅思系列考试和职业英语考试多采用分析判断法（如 Manias&McNamara 2016；Dunlea et al.2019）。专家需先将样本划分为若干个表现等级（如未达标和达标），再将每一个表现等级分为若干个档次（如高、中、低）。相邻两个表现等级的临界分59闵尚超沈吉利语言测试标准设定研究现状与展望便等于较低等级中的高分与较高等级中的低分相加所得的平均值。该方法基于考生的真实作答情况进行等级划分，直截了当，流程简便。但其最大的问题在于，当样本较少时，临界分不稳定

9、（Hambleton et al.2000）。面对这一问题，Dunlea et al.（2019）提出的解决方案是参考对照组法（Contrasting Group Method）（Livingston&Zieky 1982），寻找相邻表现等级考生得分分布曲线的交点。而托福系列考试则多采用改良表现剖析法（如 Wylie&Tannenbaum 2006；Tannenbaum&Wylie 2008）。该方法仅适用于题量较少的测试，其工作原理是由专家从每道已打分的样本中筛选符合 JQC 特征的样本，将样本每道题的得分相加形成初步的临界总分，再找出总得分等于该临界总分的所有样本。假设临界总分为 18，则

10、对应样本的得分情况可能是 9、2、1、6 或 5、4、5、4。随后，专家逐个判断样本的作答情况，决议是否符合 JQC 特征。若专家一致认为所有样本均不及最低标准，则需调高临界总分，继续找寻并分析相应分数的所有样本。这一过程将不断重复，直至找到理想的临界分。该流程恰恰体现了表现剖析法的优势，即基于考生的整体作答情况进行评判，而非孤立地推断 JQC 在各个试题上的表现。但与分析判断法类似，该方法极其依赖于样本的数量和质量。样本若无法涵盖各种可能的分数组合，则该方法的实施效果将大打折扣。2.3 影响标准设定方法选择的其他因素标准设定的方法各有利弊。除考试题型外，不少学者（如 Hambleton et

11、 al.2012；Tannenbaum&Cho 2014）都曾提出过一些其他的考虑因素。笔者认为可将影响标准设定方法选择的其他因素归纳为以下四个方面：1）标准设定方法的一致性。这是证明临界分合理性的有力证据，主要包括专家判断的内部一致性、专家间的一致性、专家判断与外部证据的一致性等。而针对“不同方法间的一致性比较”这一话题，研究者各执己见。以 Angoff 法和书签法为例，部分研究者（如 etin&Gelbal 2013；Hsieh 2013）认为两种方法的外部一致性相差无几。而也有研究者（Afrashteh 2021）指出，书签法的内部和外部一致性均高于Angoff 法。综上，笔者建议在条件

12、允许的情况下，研究者可同时选取两种方法开展标准设定，而临界分的选择可取一致性较高者或更贴合考试性质者。例如，在低风险入学考试中，学生自身的努力可在一定程度上弥补他们在语言能力上的不足，因此标准设定方法可取较低临界分者。2）标准设定方法的易理解性和可操作性。参与标准设定会议的专家可能来自不同的领域，他们并不一定都具备语言测试相关知识。例如，在专门用途语言测试的标602024 年第一辑总第四辑准设定中，专家团队成员可能会有医生和护士等。若使用诸如诊断剖析法等专业性较强的方法，则可能会给语言测试领域外的专家造成理解上的困扰。因此，方法的易理解性和可操作性会影响标准设定方法的最终选择。3）培训师对于

13、标准设定方法的熟悉度和操作经验。培训师在标准设定流程中承担讲介、协调、反馈和管理等职责（张洁、王伟强 2019），他们对相关方法的理解会直接影响标准设定的结果。Mee et al.（2013）的实证研究表明，若培训师能用较为客观的话语对专家加以引导，那么即便在面对虚假的参考数据时，专家也能作出合理判断，而非根据参考数据一味地进行修改。4）时间的充分性和资源的充足性。例如，在时间紧、题量大的情况下，采用有赖专家对试题一一作出判断的 Angoff 法会过于耗时，无疑是不合理的。又如，当考生样本无法涵盖所有分数段时，分析判断法基于真实样本的优势将无法彰显。总的来说，选择何种标准设定方法的影响因素众多

14、，而笔者认为，标准设定方法的选择与临界分的决策类似，无所谓正确与否，只有合不合适。表 1 对标准设定应用实例的梳理可为研究者提供一些思路，但在未来实践中，研究者应在权衡 2.3 中参考要点的基础上，结合具体的情境，作出最为合适的选择。题型技能标准设定方法应用实例选择反应式的题型听力、阅读改良 Angoff 法托福对接欧框（Tannenbaum&Wylie 2008；Tannenbaum&Baron 2011；Papageorgiou et al.2015）；托福对接量表（Papageorgiou et al.2019）；大学英语四、六级对接量表（金艳等 2022）是/否Angoff 法雅思对接

15、欧框（Lim et al.2013）；美国政府组织的高风险语言水平测试（Fechter&Yoon 2024）改良 Angoff 法和投篮法（Basket Method）（Kaftandjieva 2009）雅思、普思对接量表（Dunlea et al.2019）；高考英语（上海卷）对接量表（潘鸣威等 2022）改良 Angoff 法和对照组法校本考试对接量表（闵尚超、姜子芸 2020）是/否Angoff 法和书签法中国台湾六年级学生英语能力评估（Hsieh 2013）书签法、临界组（Borderline Group Method）（Livingston&Zieky 1982）和聚类分析法（Cl

16、uster Analysis）（Sireci 2001）ESL 分级测试（Shin&Lidster 2017）Ebel 法（Ebel 1972）海外飞行员培训项目阶段性测试（Treadaway&Read 2024）表 1 语言测试中标准设定常用方法概览（待续）61 闵尚超沈吉利语言测试标准设定研究现状与展望3.标准设定研究现有问题和未来发展方向近二十年来，标准设定在语言测试界如火如荼地展开。除美国教育考试服务中心（Educational Testing Service，ETS）、英国文化教育协会（British Council）等大型机构外，越来越多的单位和组织也参与其中，开展校本考试（如

17、闵尚超、姜子芸 2020；何莲珍等 2021）、高考（潘鸣威等 2022）等的标准设定。标准设定的实践和研究不断推动着其流程朝着更加科学化的方向发展。目前，该流程已逐渐系统化，包含以下步骤：1）选择标准设定方法和完成准备工作；2）遴选专家；3）描述不同等级的表现；4）培训专家；5）开展一轮评价和收集专家意见；6）反馈相关信息和组织专家讨论；7）开展二轮评价和再次收集专家意见；8）获取专家对标准设定过程评价，计算并推荐临界分；9）收集、整理相关材料和效度证据。在此基础上，标准设定流程也在不断经历着革新。以 Angoff 法为例，为解决预测 JQC 答对概率困难这一问题，在雅思与量表对接研究中，D

18、unlea et al.（2019）将投篮法作为改良 Angoff 法的预备活动，以期让专家进一步了解试题难度和各个表现等级 JQC 的典型特征，结果表明专家的首轮试题难度预测与试题实测难度有着较高的相关性。而在优诊学听力技能与量表的对接研究中，研究者则引入了判断各个试题所考查的微技能这一环节，且事后的专家访谈也表明这一活动对于Angoff 判断有一定的帮助（闵尚超 2021）。尽管标准设定的流程已越来越科学，但在实践过程中，目前仍存在以下四点值得注意的问题。题型技能标准设定方法应用实例建构反应式的题型口语、写作分析判断法雅思对接欧框（Lim et al.2013）；职业英语考试（Manias

19、&McNamara 2016；Pill&McNamara 2016；Davidson 2022）；雅思、普思对接量表（Dunlea et al.2019）；雅思对接量表（蔡宏文 2019）；大学英语四、六级对接量表（金艳等 2022）；校本考试对接量表（何莲珍等 2021）改良表现剖析法托福对接欧框（Wylie&Tannenbaum 2006；Tannenbaum&Wylie 2008；Papageorgious et al.2015）；托福对接量表（Papageorgiou et al.2019）试题描述语匹配法辅以标杆分析法托福对接欧框（Harsch&Kanistra 2020）整体表现

20、法（Body of Work Method）（Kingston&Tiemann 2012）综合型听说考试对接量表（陈大建、胡杰辉 2023）表 1 （续）62 2024 年第一辑总第四辑3.1 标准设定的信度和效度问题标准设定的过程离不开人为主观判断，故而易受人诟病。争议主要源于：1）专家判断的随意性。虽然大部分研究（如闵尚超 2019；Fechter&Yoon 2024）表明反馈和小组讨论可以促进专家意见的一致性，但 Clauser et al.（2009）的研究发现，即便是面对虚假的参考数据，专家也会不假思索地对首轮预判结果进行大幅度修改。此外，小组中经验最丰富的专家的意见往往容易占据上

21、风，影响其他专家的判断（Shin&Lidster 2017）。2）专家判断过程的模糊性。McGinty（2005）曾将专家判断过程比作“黑匣子”，但近二十年以来，这一困境似乎并未得到改善。专家是如何理解 JQC这个概念，又是如何将试题实测难度值、小组讨论结果等内化为自己的判断标准，学界对此仍知之甚少。3）最终决策的主观性。专家会议所产生的临界分仅仅只是原始分数，临界分的最终决定权掌握在相关组织机构手中。然而，这些机构的决策过程往往较为主观，且缺乏一定的公开透明性。Xi（2008）和 Eckes（2017）等曾尝试用受试者工作特征曲线（Receiver Operating Characteris

22、tic Curve）辅助决策机构进行最终决策。但相较于数据分析方法，对最终决策底层逻辑的探讨更具价值。Geisinger&McCormick（2010）曾罗列了最终决策过程中应考虑的 16 种因素，但非系统化的归纳无法对最终决策形成过程性的引导。基于此，未来的研究可就这些话题进行深入探究，以期提高标准设定结果的信度和效度。3.2 认知诊断测试标准设定中存在的问题基于认知诊断测试（Cognitive Diagnostic Assessment，CDA）提出的标准设定方法从考生实际作答情况出发，通过比较 JQC 可能具有的掌握模式与 Q 矩阵分析结果判断考生能否答对某道题。与传统的标准设定方法相比

23、，其最大优势在于无须人为判断答对概率，便可同步完成评分与分级两项工作。此类方法虽有着广泛的应用前景，但目前仍面临诸多挑战。操作过程中的一大难点便在于如何有效筛选 JQC 可能具有的属性掌握模式。Skaggs et al.（2018）曾尝试用诊断剖析法为某数学考试定标，由专家独立判断 JQC 所掌握的认知属性后，推测 JQC 可能具有的属性掌握模式，但结果并不理想JQC 可能具有的属性掌握模式众多，临界分分布范围较广。而当某一考试所考查的认知属性越多时，这一问题便越突出。例如，当某一考试考查 10 个微技能时，则可形成 1024（210）种掌握模式。同时，专家对 JQC 的属性掌握模式进行主观推

24、测可能会进一步使此类标准设定过程复杂化。Zachary（2023）研究发现，即便扩大参考样本数量或提供多样的属性掌握模式，专家也不太愿修改自己的最终判断。但值得一提的是，基于 CDA 的标准设定方法目前鲜见于语言测试领域。因此，未来63 闵尚超沈吉利语言测试标准设定研究现状与展望的研究也可从实践层面作出探讨，验证此类方法的效度。3.3 专门用途英语测试标准设定中存在的问题专门用途英语测试（Testing English for Specific Purposes，TESP）考查的虽然是考生在特定专业领域中使用英语的能力，但在此过程中，难免会涉及特定专业领域的知识。语言能力知识与专业领域知识

25、的交织使得 TESP 的标准设定活动变得错综复杂。原则上，专家应撇开考生的专业领域知识水平，仅针对考生的语言能力水平进行标准设定。但事实上，要实现这一点异常困难（Pill 2016；Treadaway&Read 2024）。与此同时，相关专业领域知识很有可能触及与会语言领域专家的知识盲区。因此，对 TESP 的标准设定而言，了解相关领域专家的意见和想法至关重要（Treadaway&Read 2024）。这一观点也得到了实证研究结果的支持。研究者（Manias&McNamara 2016；Pill&McNamara 2016；Davidson 2022）发现，在医护人员职业英语写作考试中，相关领

26、域专家的考虑维度虽然与语言领域专家大体相同，但亦有独特之处，如特地强调了“读者意识”在写作中的重要性（Davidson 2022）。他们指出，由于医护人员时间极其有限，因此，写信者应有良好的“读者意识”，在写作中开门见山以节约读信人的时间。由此可见，相关领域专家往往能从不同角度提供一些新的看法，而他们的看法和意见也可为标准设定提供效度证据。但目前，与之相关的质性研究仍处于稀缺状态。未来的研究则可在邀请相关领域专家参会的基础上，进一步探究标准设定过程中相关领域专家与语言领域专家考虑维度的异同等。3.4 综合型语言测试标准设定中存在的问题与传统的单技能测试任务不同，综合型语言测试任务旨在考查考生的

27、综合语言运用能力，如读后续写和听后续说等。综合型语言测试任务在构念及题型上更为复杂和多样，这使得综合型语言考试的标准设定变得颇具挑战。其难点主要体现在以下两个方面：1）需创造性地运用特定的标准设定方法。在以往的标准设定实践（如托福iBT 写作的标准设定活动）中，研究者常用同一标准设定方法来同时为独立写作任务和综合写作任务定标（如 Papageorgiou et al.2019；Harsch&Kanistra 2020）。然而，Harsch&Kanistra（2020）的研究表明，专家在为这两种写作任务定标时，所考虑的因素可能不尽相同。面对独立写作任务，专家更注重标准本身、小组讨论结果和其他专家

28、的判断；而面对综合写作任务，专家则更倾向基于自身的经验和考生的真实样本作出判断。因此，适用于单技能测试的标准设定方法并不一定适用于综合型语言测试。解决这一问题既有赖于对综合型语言测试构念的深入剖析，也离不开对标准设定的实践探索。2）确保所参照的语言能力标准对综合型语言测试的适用性。陈大建和64 2024 年第一辑总第四辑胡杰辉（2023）将一项英语听说综合型语言测试与量表进行了对接，其结果与托福、雅思对接量表的结果之间呈现中等偏低的相关关系。诚然，这几项考试之间的构念差异可能对结果产生了影响，但基于单项技能开发的量表本身对于综合型语言测试的适用性仍有待商榷。换言之，为更好地服务于综合型语言测

29、试的定标活动，未来研究者或需根据情境对现成的不同等级描述语作出微调。4.结语本文聚焦语言测试领域，首先简要介绍标准设定的背景，接着在整理相关标准设定研究的基础上，梳理接受型考试和产出型考试常用的标准设定方法，并罗列选择方法时应考虑的因素。最后，归纳标准设定过程中亟待解决的问题并提出未来的研究方向。尽管本文的焦点在语言测试领域，但现存标准设定实践和研究中的弊端却是各个领域共同面临的挑战。因此，本文对于其他教育领域，诸如医学、数学等亦能有所启发。正如 Cizek（2001）所言，标准设定既是一门科学，也是一门艺术。标准设定的研究目前还面临着诸多挑战，各个领域的研究者应共同致力于此，促使其朝着更加科

30、学、公平、公正的方向迈进。参考文献Afrashteh,M.Y.2021.Comparison of the validity of Bookmark and Angoff standard setting methods in medical performance tests J.BMC Medical Education,21(1):18.Angoff,W.H.1971.Scales,norms,and equivalent scores A.In R.L.Thorndike(ed.).Educational measurement(2nd ed.)C.Washington,DC:Amer

31、ican Council on Education:508600.Baldwin,P.,Margolis,M.J.,Clauser,B.E.,Mee,J.&Winward,M.2020.The choice of response probability in Bookmark standard setting:An experimental study J.Educational Measurement:Issues and Practice,39(1):3744.etin,S.&Gelbal,S.2013.A comparison of Bookmark and Angoff standa

32、rd setting methods J.Educational Sciences:Theory&Practice,13(4):21692175.Cizek,G.J.2001.Conjectures on the rise and call of standard setting:An introduction to context and practice A.In G.J.Cizek(ed.).Setting performance standards:Concepts,methods,and perspectives C.Mahwah,NJ:Erlbaum:318.Clauser,B.E

33、.,Baldwin,P.,Margolis,M.J.,Mee,J.&Winward,M.2017.An experimental study of the internal consistency of judgments made in Bookmark standard setting J.Journal of Educational Measurement,54(4):481497.Clauser,B.E.,Mee,J.,Baldwin,S.G.,Margolis,M.J.&Dillon,G.F.2009.Judges use of 65 闵尚超沈吉利语言测试标准设定研究现状与展望e

34、xaminee performance data in an Angoff standard-setting exercise for a medical licensing examination:An experimental study J.Journal of Educational Measurement,46(4):390407.Clauser,J.C.,Hambleton,R.K.&Baldwin,P.2016.The effect of rating unfamiliar items on Angoff passing scores J.Educational and Psyc

35、hological Measurement,77(6):901916.Davidson,S.2022.The domain expert perspective:A qualitative study into the views expressed in a standard-setting exercise on a language for specific purposes(LSP)test for health professionals J.Language Testing,39(1):117141.Dunlea,J.,Spiby,R.,Wu S.,Zhang,J.&Cheng,M

36、.2019.Chinas Standards of English Language Ability(CSE):Linking UK exams to the CSE R.London:British Council.Ebel,R.L.1972.Essentials of educational measurement(2nd ed.)M.Englewood Cliffs,NJ:Prentice Hall.Eckes,T.2017.Setting cut scores on an EFL placement test using the prototype group method:A rec

37、eiver operating characteristic(ROC)analysis J.Language Testing,34(3):383411.Fechter,T.M.&Yoon,H.2024.Evaluating methodological enhancements to the Yes/No Angoff standard-setting method in language proficiency assessment J.Language Testing.Advance online publication.Geisinger,K.F.&McCormick,C.M.2010.

38、Adopting cut scores:Post-standard-setting panel considerations for decision makers J.Educational Measurement:Issues and Practice,29(1):3844.Hambleton,R.K.,Jaeger,R.M.,Plake,B.S.&Mills,C.2000.Setting performance standards on complex educational assessments J.Applied Psychological Measurement,24(4):35

39、5366.Hambleton,R.K.,Pitoniak,M.J.&Copella,J.M.2012.Essential steps in setting performance standards on educational tests and strategies for assessing the reliability of results A.In G.J.Cizek(ed.).Setting performance standards:Foundations,methods,and innovations(2nd ed.)C.New York,NY:Routledge:4776.

40、Harsch,C.&Kanistra,V.P.2020.Using an innovative standard-setting approach to align integrated and independent writing tasks to the CEFR J.Language Assessment Quarterly,17(3):262281.Hsieh,M.2013.Comparing Yes/No Angoff and Bookmark standard setting methods in the context of English assessment J.Langu

41、age Assessment Quarterly,10(3):331350.Kaftandjieva,F.2009.Basket procedure:The breadbasket or the basket case of standard setting methods?A.In N.Figueras&J.Noijons(eds.).Linking to the CEFR levels:Research perspectives C.Arnheim:CITO/EALTA:2134.Kingston,N.M.&Tiemann,G.C.2012.Setting performance stan

42、dards on complex 66 2024 年第一辑总第四辑assessments:The Body of Work Method A.In G.J.Cizek(ed.).Setting performance standards:Foundations,methods,and innovations(2nd ed.)C.New York,NY:Routledge:201223Lewis,D.M.,Mitzel,H.C.&Green,D.R.1996.Standard setting:A Bookmark approach R.Phoenix,AZ:Symposium conducte

43、d at the Council of Chief State School Officers National Conference on Large-Scale Assessment.Lim,G.S.,Geranpayeh,A.,Khalifa,H.&Buckendahl,C.W.2013.Standard setting to an international reference framework:Implications for theory and practice J.International Journal of Testing,13(1):3249.Livingston,S

44、.A.&Zieky,M.J.1982.Passing scores:A manual for setting standards of performance on educational and occupational tests M.Princeton,NJ:ETS.Manias,E.&McNamara,T.2016.Standard setting in specific-purpose language testing:What can a qualitative study add?J.Language Testing,33(2):235249.McGinty,D.2005.Ill

45、uminating the“black box”of standard setting:An exploratory qualitative study J.Applied Measurement in Education,18(3):269287.Mee,J.,Clauser,B.E.&Margolis,M.J.2013.The impact of process instructions on judges use of examinee performance data in Angoff standard setting exercises J.Educational Measurem

46、ent:Issues and Practice,32(3):2735.Papageorgiou,S.,Tannenbaum,R.J.,Bridgeman,B.&Cho,Y.2015.The association between TOEFL iBT test scores and the Common European Framework of Reference(CEFR)levels J.Research Memorandum No.RM-15-06.Princeton,NJ:ETS.Papageorgiou,S.,Wu,S.,Hsieh,C.N.,Tannenbaum,R.J.&Chen

47、g,M.2019.Mapping the TOEFL iBT test scores to Chinas Standards of English Language Ability:Implications for score interpretation and use J.ETS Research Report Series,(1):149.Pill,J.2016.Drawing on indigenous criteria for more authentic assessment in a specific-purpose language test:Health profession

48、als interacting with patients J.Language Testing,33(2):175193.Pill,J.&McNamara,T.2016.How much is enough?Involving occupational experts in setting standards on a specific-purpose language test for health professionals J.Language Testing,33(2):217234.Plake,B.S.&Hambleton,R.K.2001.The analytic judgmen

49、t method for setting standards on complex performance assessments A.In G.J.Cizek(ed.).Setting performance standards:Concepts,methods,and perspectives C.Mahwah,NJ:Erlbaum:283312.Shin,S.-Y.&Lidster,R.2017.Evaluating different standard-setting methods in an ESL placement testing context J.Language Test

50、ing,34(3):357381.Sireci,S.G.2001.Standard setting using cluster analysis A.In G.J.Cizek(ed.).Setting 67 闵尚超沈吉利语言测试标准设定研究现状与展望performance standards:Concepts,methods,and perspectives C.Mahwah,NJ:Erlbaum:339354.Skaggs,G.,Hein,S.F.&Wilkins,J.L.M.2018.Using diagnostic profiles to describe borderline pe

展开阅读全文