读后续写任务提示条件对写作表现和评分信度的影响.pdf

资源描述

1、 21 2024 年第一辑总第四辑读后续写任务提示条件对写作表现和评分信度的影响*张洁上海财经大学提要：读后续写任务将语言理解和产出紧密结合，通过互动协同促进语言习得，具有积极的促学效果。然而，当读后续写应用于大规模考试，则需要考虑任务设计，在保障考试信效度和发挥积极促学作用之间寻求最佳平衡。本研究聚焦读后续写任务中的提示条件，采用实证研究方法考察不同提示条件如何影响学生的写作表现和评分员的评分信度。结果发现，适度的内容提示能够减轻学习者的认知负担，有助于他们创造内容，产出整体质量更高的续作；同时，适度的内容提示也能帮助评分员更一致地把握内容维度的评分尺度，保障评分信度。研究发现对读后

2、续写命题和评分具有重要的启示意义。关键词：读后续写；任务提示条件；段首句；内容创造；评分信度1.引言为了发挥考试对教学的积极引导作用，我国在高考英语写作部分引入读后续写题型。该题型要求考生阅读一篇英语短文，然后按提示将其续写完整（刘庆思、陈康2016）。读后续写题型之所以能够促学，在于其将语言理解与产出紧密结合，鼓励学习者进行“创造性模仿”，通过互动协同促进语言习得（王初明 2021）。然而，将该题型应用于大规模高利害考试，需要考虑如何设计任务条件，在保障考试信效度和发挥积极促学作用之间寻求最佳平衡（王初明 2022）。目前有关读后续写测试的研究多关注其构念界定或任务特征对写作质量和协同效应的

3、影响，对其如何影响评分信度鲜有探究。本研究拟聚焦读后续写任务中的提示条件，采用实证研究的方法，考察不同的提示条件如何影响学习者写作表现和评分员的评分信度，以期为读后续写题型设计提供有价值的参考。*本研究系国家社会科学基金一般项目“读后续写在我国高考英语中的应用研究”（项目编号：21BYY125）的阶段性成果。22 2024 年第一辑总第四辑2.文献综述读后续写作为一种读写结合任务，要求学习者通过阅读与原文充分互动，将语言理解和产出紧密结合，通过“续”加强两者之间的互动协同，起到“拉平”学习效应（Wang&Wang 2014；王敏、王初明 2014）。相关理论和实证研究表明，读后续写任务的目

4、标构念包括三个主要维度：理解原文、与原文互动协同和在这两者基础上的书面表达（王初明、亓鲁霞 2013；王敏、王初明 2014；陈康 2019；张洁等 2023）。Plakans（2013）根据目标能力，将读写结合任务分为忠实文本型（text-responsible）、忠实内容型（content-responsible）和主题关联型（thematically linked）。Ye&Ren（2023）使用结构方程模型验证了读后续写目标能力结构，指出读后续写更接近忠实内容型的读写结合任务，学习者需要基于原文理解创造内容，调用语法知识、语篇综合和书面表达等能力将原文内容和所创造的内容整合衔接才能完成续

5、写。这也印证了读后续写是将内容创造与语言使用紧密结合的任务（王初明 2014）。内容创造可以帮助激发学习者内生表达动力，增强任务参与度，促进语言协同的发生（辛声、李丽霞 2020），是衡量读后续写任务表现的一个重要维度。除对目标能力构念的界定之外，任务特征如何影响续写表现对于题型设计和效度验证也至关重要。现有研究主要考察前读材料特征或写作提示对续写表现和协同效应的影响。Peng et al.（2018）探讨了前读材料的文本复杂度对续写表现的影响，发现经过简化的材料与学习者的语言能力更匹配，续写整体质量更高，协同效应更显著。薛慧航（2013）则聚焦文本的情景兴趣（text-based situa

6、tional interest），发现趣味性更强的故事续写的协同效应更强，学习者出现的写作错误更少。此外，体裁也是前读材料的重要特征变量。尽管大多数研究基于记叙文续写，也有研究者对比了不同体裁的续写任务表现，但所得结论并不完全一致。张秀芹和张倩（2017）对比了议论文续写和记叙文续写，发现议论文续写的协同效应更强，学习者的产出错误明显少于记叙文续写。她们由此认为，议论文续写更有利于提升语言表达的准确性。张洁等（2023）对比了同一组学习者在记叙文、说明文和议论文续写任务中的写作质量和词汇协同指标后，却发现议论文和说明文续写任务的词汇协同强度较记叙文续写低，可能是由于这两种体裁的续写任务对学习者

7、概括、推断等高阶思维能力要求更高，任务的认知负担更大，一定程度上减弱了协同效应。除前读材料外，续写提示条件也是影响任务表现的重要因素。一类提示条件使用语篇强化或任务指令，凸显前读材料中特定语言形式，并明确要求学习者在续写中使用该语言形式。袁丹纯（2013）发现，明确要求学习者使用前读材料中的词汇和结构 23 张洁读后续写任务提示条件对写作表现和评分信度的影响的指令可以增强续写中的语言协同强度，且低水平学习者更易受到任务指令的影响。辛声（2017）则使用强化输入的方法，在前文中使用下划线标注出使用虚拟语气的句子，此类经过强化的输入在一定程度上促进了结构相对简单的虚拟语气的习得，但对结构复杂的

8、虚拟语气促进效果欠佳。另一类提示条件主要针对内容创造，为续写提供段首句，或标注前读材料中体现重要内容要素的关键词。现行的高考英语读后续写题主要采用这类提示条件。Shi et al.（2020）和张洁（2022）对比了学习者在不同提示条件下（是否提供关键词和/或段首句)的续写文本特征、写作策略和写作过程。前者发现，同时提供关键词和段首句能够提升续作质量，且能够减轻学习者的认知负担；后者则发现，相比提供关键词，合理设置的段首句能够更好地帮助学习者理解原文并构思续写内容。上述研究多聚焦任务特征对学习者续写表现和协同强度的影响，鲜有研究关注任务设计如何影响评分质量，而这对于将读后续写应用于大规模高利害

9、考试尤其重要。Cumming et al.（2001）通过对比老版 TOEFL 话题写作和新版 TOEFL 综合写作任务中评分员的决策过程和策略以及评分时关注的文本特征，为综合写作任务在 TOEFL考试中的大规模应用进行效度验证，同时为优化题型设计、评分标准制定和评分员培训提供依据。同理，将读后续写应用于大规模考试，核心问题之一是如何通过有效、可靠的试题设计引出学生的最佳表现，为评估其目标语言能力提供有效语言样本（Hughes&Hughes 2020），同时也要有利于确保评分的一致性和公平性。王初明（2022）提到考试中使用内容提示条件可能会限制学习者的创造力，从而影响考试的促学效果；但仅为了

10、追求积极反拨效应而忽视考试信度亦不可取。如何在考试信度与促学之间寻求最佳平衡和妥协，是考试追求积极反拨效应的重要考量。有鉴于此，本研究将通过考察提示条件如何影响学生的写作表现和评分员的评分信度，探讨如何合理设置提示条件以保障试题的信度和效度。具体而言，本研究拟回答两个研究问题：1）读后续写任务提示条件如何影响学生的写作表现？2）读后续写任务提示条件如何影响评分员的评分信度？3.研究方法3.1 写作任务本研究中读后续写题的前读材料是一篇记叙文，包含 5 个自然段，共 345 个单词，可读性指数（Flesch-Kincaid Grade Level）为 4.6，属于难度较低的文章。故事讲述 24

11、2024 年第一辑总第四辑了一名骑行者在旅途中与同行者分开后遇到一匹狼，狼穷追不舍。所给原文的结尾处，两位陌生人驾车从这名骑行者身边路过，任务要求考生续写此后的故事情节。根据对续写部分的提示不同，研究者设计了三种任务条件。任务条件 1：任务画出原文中若干体现关键内容要素的关键词，要求学习者在续作中使用其中至少 5 个关键词，并提供 2 个续写段落的段首句；任务条件 2：只是提供 2 个续写段落的段首句；任务条件 3：未进行任何提示。3.2 参与者为避免考试训练效应，本研究在尚未进行高考综合改革的省份进行，即参与学生未受过读后续写写作方法的系统训练。参与者为来自该省省会城市中等水平学校高中二年

12、级三个平行班级的学生。根据最近一次的年级统一英语考试成绩，三个班级学生的英语语言水平整体相当。3.3 数据收集研究者在同一时间和地点向学生介绍读后续写测试要求，然后学生在规定时间内（45 分钟）独立完成测试。三个班级的学生被随机分配完成三种任务条件中的任一种。筛除无效作答后（全部空白或某一段空白）后，研究者收集三种任务条件下的有效作答，分别为 34 份、36 份和 35 份。学生完成试题后，研究者从三个班级中挑选综合英语水平中等偏上的 12 名学习者（男生 5 名，女生 7 名）进行受激回溯。受激回溯一对一进行。回溯过程中，学习者对照试题和作答，在研究者的引导下回溯续写过程。回溯按照提纲展开，

13、主要包括对原文的理解、提示条件对写作的影响、构思和写作过程及遇到的困难等。回溯过程全程录音。三种任务条件下的所有作答随机排列后由 6 名具有读后续写高考阅卷经验的评分教师（以下简称“评分员”）独立进行整体评分。评分采用 15 分制，参考现行高考英语读后续写评分标准，根据续作在内容创造、语言质量和篇章连贯等方面的综合表现进行整体评判。完成评分后，研究者对评分员开展后续访谈，同时询问他们对三种任务条件下学生续写作答的整体看法，包括在评分时有何困难、学生作答是否体现不同特点等。3.4 数据分析数据分析采用了定量和定性相结合的方法。6 名评分员的评分使用 FACETS Version 3.58.0（L

14、inacre 2005）进行多层面Rasch模型分析（以下简称“MFRM分析”）。25 张洁读后续写任务提示条件对写作表现和评分信度的影响分析采用评定量表模型，包括学生、评分员和任务条件三个层面，其中评分员和任务条件层面设置为负向，表示数值越高评分越严厉，任务条件难度越大。分析结果用于对评分整体质量进行评估，包括评分严厉度、一致性和偏差分析。采用结果中学习者在各任务条件下的调整分（fair measure）作为续作整体质量的评分。对三种任务条件下的评分进行描述统计和均值检验，以考察任务条件对续作整体质量的影响。研究者对学生受激回溯和评分员访谈录音进行转写，总时长约 4 小时，转写后产出约

15、4.8 万字的文本，对录音文稿的分析采用扎根理论（Corbin&Strauss 2008）中的归纳性质性数据分析方法。研究者首先对文本进行多次通读，根据回溯和访谈提纲，归纳其中浮现的有关不同任务条件下续写表现的主要特点。4.结果与分析4.1 不同任务条件下评分信度比较表 13 汇总了各任务条件下反映 6 名评分员评分信度的统计指标，包括严厉度（measure）、加权拟合值（Infit MnSq）、非拟合评分数（unexpected response）、显著偏差数、分隔系数和分隔信度。其中，反映评分员严厉度差异的指标主要包括其严厉度值的跨度（最严厉和最宽松评分员之间的差异）以及评分员层面的分隔系

16、数和分隔信度。一般认为严厉度值差异在 1 logit 之内，则说明评分员严厉度之间的差异适度。从整个评分员层面来看，分隔系数大于，则说明个体间有明显差异（Myford&Wolfe 2004）。分隔信度的含义与一般意义上的评分信度有所不同。评分信度是评分员之间相似度的衡量，数值越大说明两个评分者评分越一致；而分隔信度衡量的是评分员之间有显著差异的程度，数值越大则说明差异越显著。评分员的自身一致性主要参考加权拟合值，该指标衡量个体评分员的实际严厉度与模型预测值之间的拟合程度。一般认为 Infit 取值在 0.71.3 的范围内，可以认为评分员在所有样本上的严厉度符合模型预期，具有较好的前后一致性（

17、Bonk&Ockey 2003）。大于该范围称为非拟合，说明评分员前后一致性较差；小于该范围则称为过度拟合，说明评分可能存在一定的趋中效应或光环效应（Myford&Wolfe 2003,2004）。一般认为过度拟合对评分信度的影响相小于非拟合。除此之外，每位评分员的非拟合评分数以及显著偏差数也能从一定程度上反映其评分的自身一致性。非拟合评分是该评分员所评分数中与模型预测显著不同的分数，体现了显著的随机差异。对学生层面的偏差分析可以检测评分员是否在评价某些学生时与其一贯标准相比 26 2024 年第一辑总第四辑过于严厉或宽松，体现了他们对评分标准把控上的前后一致性。对某个或某类学生的显著偏差很

18、可能是与该（类）学生的一些突出特征（非典型特征或与构念无关的特征）相关。表 1 任务条件 1 评分信度指标严厉度加权拟合值非拟合评分数显著偏差数（对学生）评分员 10.771.6825评分员 2-0.240.5700评分员 3-0.351.1403评分员 4-0.330.7100评分员 50.040.9202评分员 60.120.7701分隔系数：2.98；分隔信度：0.90；卡方值：59.2；df=5；p=0.00表 2 任务条件 2 评分信度指标严厉度加权拟合值非拟合评分数显著偏差数（对学生）评分员 10.461.2311评分员 2-0.101.1701评分员 30.141.0301评

19、分员 40.120.9400评分员 5-0.180.9200评分员 6-0.200.4302分隔系数：1.55；分隔信度：0.75；卡方值：23.9；df=5；p=0.00表 3 任务条件 3 评分信度指标严厉度加权拟合值非拟合评分数显著偏差数（对学生）评分员 10.511.0701评分员 2-0.341.2200评分员 31.061.0601评分员 4-0.931.1000评分员 5-0.200.9101评分员 6-0.110.3701分隔系数：4.61；分隔信度：0.95；卡方值：126.2；df=5；p=0.00 27 张洁读后续写任务提示条件对写作表现和评分信度的影响三种任务条件

20、评分信度指标显示，针对任务条件 2 作答的评分，6 名评分员之间的严厉度差异最小（跨度为 0.66 logit，分隔系数为 1.55，分隔信度为 0.75），仅有 1名评分员 Infit 值为 0.43，为过度拟合，非拟合评分数为 1，显著偏差数为 5，整体而言评分信度最高。任务条件3作答评分中，评分员之间的严厉度差异最大（跨度为1.99 logit，分隔系数为 4.61，分隔信度为 0.95），但评分员的自身一致性尚可，仅有 1 名评分员 Infit 值为 0.37，为过度拟合，无非拟合评分，显著偏差数为 4。而针对任务条件1作答的评分中，尽管6名评分员的严厉度适中（跨度为1.12 logi

21、t，分隔系数为2.98，分隔信度为 0.90），但评分员自身一致性相对较差，有 1 名不拟合的评分员（Infit 值为 1.68）和 1 名过度拟合的评分员（Infit 值为 0.57），非拟合评分数为 2，显著偏差数为 11。经比较发现，不同的任务条件下，评分员的评分信度存在一定的差异，在不同指标上体现出不同特点。整体而言，在评阅任务条件 2 下的续作时，评分信度最高：评分员之间严厉度的差异最小，说明他们整体对标准的理解和把握尺度最为一致，同时自身一致性较高，前后较为稳定；在评阅任务条件 1 下的续作时，评分员的自身一致性最差，可能是由于某些与构念无关的因素或学生的续作中出现非典型特征的比例

22、更高；而在评阅任务条件 3 下的续作时，评分员之间的严厉度差异最大，说明对该条件下的作答质量评价标准把控可能存在一定分歧。4.2 不同任务条件下写作表现比较4.2.1 整体写作质量将 MFRM 分析结果中学生在每种任务上的调整分作为最终得分。因调整分抵消了学生能力外因素的影响，能够更为准确、客观地反映其整体写作质量。表 4 展示了不同任务条件下续写样本的评分均值和标准差，可以看出任务条件 3 下的续作评分均值低于任务条件 1 和任务条件 2。表 4 不同任务条件评分均值统计均值标准差任务条件 1（N=34）7.81.74任务条件 2（N=36）7.81.25任务条件 3（N=35）7.11.7

23、2对三个任务条件下的续作得分进行均值检验，方差齐性检验p=0.154，说明方差 28 2024 年第一辑总第四辑无显著差异，可以进行 ANOVA 单维方差分析。统计结果显示，三个任务条件下的续写样本整体质量无显著差异（F=2.189，df=2，p=0.117）。对三种任务条件进行两两比较的事后检验结果显示，任务条件 1 和 2 之间的差异（p=0.975）小于任务条件 1和 3（p=0.073）以及任务条件 2 和 3（p=0.072）之间的差异，即任务条件 1 和 2 差异不显著，任务条件 1 和 3、任务条件 2 和 3 呈边缘性显著。这可能是因为任务条件 3没有提供任何提示，增加了任务

24、的认知负担，因此学生的续作质量相比任务条件 1和 2 来说稍低。4.2.2 评分教师反馈研究者对 6 名评分员的访谈录音进行整理和归纳后发现，评分员普遍认为有提示的任务条件（任务条件 1 和 2）下的续写产出与无提示的任务条件（任务条件 3）下的续写产出有较明显的差异，主要体现在续写的内容创造上。具体而言，在任务条件 1 和 2 下，学生的续写作答整体“创造的情节发展方向性比较明确，发散性较小”（评分员 2）。其中起到关键性作用的是两个段首句，它们对后续情节设置指明了方向，因此整体故事发展更具有逻辑性，在内容上与原文的融洽度也更高。而在没有任何提示的任务条件 3 下，学生的续写作答“受前文的约

25、束力和限制普遍较弱”（评分员 4）；内容创造上会体现更多不同，但“情节发展缺少指向性，有些与原文情境严重脱节”（评分员 1）；相应地，“逻辑性、连贯性上有比较大的欠缺”（评分员 3）；也有一位评分员（评分员 6）结合自己的教学经验提到，不给学生任何提示虽然“有利于学生发挥创造性，但加大了考试评价的难度，学生也会倾向于使用抄袭、套用等手段来应对”。而对于任务条件 1 中画出并要求使用关键词的提示条件，不同评分员的看法并不一致。有的评分员（评分员 1、评分员 2）认为要求使用关键词能够限制情节发展方向，帮助学生进行构思；有的评分员（评分员 4、评分员 6）则认为限制过多，不利于学生发挥创造力，且在

26、评分中反而会“分散注意力”。除了内容创造上的差异，有评分员（评分员 2、评分员 5）也发现了不同任务条件下的续写表现在篇章组织上的差异。如在无提示的任务条件 3 下，学生的续写作答段落划分差异较大，容易把所有内容集中在一个段落，或段落过多、组织松散。但 6名评分员均表示三种任务条件下学生的语言使用质量未呈现系统性差异，学生的整体语言准确性和恰当性仍然存在不足，有时无法恰当表达所创造的内容。在每一种任务条件下，都有学生借鉴前文相关表达，特别是具体描述主人公被狼追赶和与狼搏斗的动作、心理等方面的词汇和短语结构。29张洁读后续写任务提示条件对写作表现和评分信度的影响 4.2.3 写作过程回溯研究者

27、对三种任务条件下各 4 名学生的回溯访谈文稿进行整理和分析，主要从阅读、构思和写作三个方面对不同任务条件下的写作过程进行比较，有以下三点主要发现。第一，不同任务条件下学生的阅读过程差异不明显。整体而言，受访学生对于文章的理解没有太大困难，多数学生表示仅有个别单词不理解，但会依照上下文进行猜测，并不影响续写。此外，大多数学生在阅读时都能够关注并重点圈出文中的主要人物和情节，以及一些重要细节。可能因受访学生语言水平均为中等及偏上，阅读理解能力及阅读习惯良好，因此无论是否有关键词提示，他们都可以把握原文关键要素，但关注到的具体细节可能存在个体差异。在构思和写作过程中，绝大多数学生会对原文部分内容进行

28、回读，寻找内容和语言上的线索。第二，任务条件对学生构思过程的影响较显著。首先，三种任务条件下学生的构思过程和策略具有一定共性。大多数受访学生表示会着重构思内容，先根据所读内容大致想好后续情节框架，再完善其中的细节和具体内容。具体而言，有学生提到在构思时要“看原文，想象自己处于那个环境下”（学生 1，任务条件 2），并且会在续写部分照应原文的一些细节。其中有个别学生提到会根据平时的课外阅读素材（如教材中的英语课文、相关新闻报道、类似故事）来构思情节（学生 4，任务条件 1；学生 2，任务条件 3），同时会考虑情节是否符合逻辑，不能和前文有太大转折（学生 2，任务条件 2），内容是否积极向上，弘扬

29、正能量（学生 3，任务条件 3），也会注意情节不能太平淡，要有些新意（学生 4，任务条件 2）。但三种任务条件下学生构思的具体过程有所不同。在无提示条件（任务条件 3）下，学生在构思时会重点关注最后一段，考虑最后一段与自己续写部分的衔接。但整体构思“更加困难，花费时间精力较多”（学生 1，任务条件 3），因为感觉有些“没方向”（学生 3，任务条件 3），且不确定自己的续写是否合理、顺畅。而在有提示条件下，段首句给了方向并缩小了写作范围，后面的内容“更容易想出来”（学生 4，任务条件 1），“思路更清楚”（学生 3，任务条件 2）。但也有学生表示段首句也是一种限制，使想象空间变小了，有时段首句所

30、给方向“与自己的预期不一致”（学生 2，任务条件 2）。关键词在学生构思过程中所起的作用没有段首句明显。任务条件 1 下的 4 名受访学生表示，关键词仅适用于对整体构思进行微调，有时为了用足关键词还要刻意改变整体构思。如学生 1 提到“先构思大致内容，再去想什么时候用到这些词，而不是用 302024 年第一辑总第四辑这些词去构思”，学生 3 说“题目要求用满一定数量关键词，写的时候发现没用到，会返回原文看看在文中何时出现，再考虑用上”，学生 2 则表示“有的词加不进去，就把原先构思改一改，加入所给关键词”。第三，任务条件对写作过程的影响不明显。大多数受访学生都表示，写作过程中主要在组织语言，

31、而困难主要在于语言表达。有学生提到续写故事难度较大，因为“小说和故事对于人物语言动作描写需要更加细致”（学生 4，任务条件 3）。此外，会出现“想好的内容有的太难，不会表达，只能进行简化”（学生 2，任务条件 1）、“单词想不起来，只能用同义词替换”（学生 4，任务条件 1）的情况。三种任务条件下，大多数学生的续作都会包含主人公被狼追赶或与狼对抗的情节，他们会特别关注原文中第三段主人公被狼追赶时的一些动作、使用的工具和心理状态等，并表示会借用其中的一些相关词汇。但也有部分学生提到，原文更多是提供内容上的线索，他们不会刻意借鉴原文语言。有个别学生还表示“考试中需要展示自己的语言水平”“有自己的语

32、言风格”“文中的刻画已经很好，很难想出不同的”（学生 2，任务条件 2），这说明部分学生在续写中的语言模仿意识不强，或对读后续写的任务要求和特点存在一定的误解。5.讨论本研究基于同一篇前读材料设计了三个包含不同内容提示条件的读后续写任务，比较在同时有关键词和段首句提示、仅有段首句提示和无提示的任务条件下的学生续写表现和评分员评分信度，以考察读后续写任务提示条件对试题信效度的影响。综合不同任务条件下评分员评分、评分员反馈和学生写作过程差异的分析，研究有以下两点主要发现：1）在不同的提示条件下，学生的阅读、构思和写作过程之间均存在频繁的互动，体现出读后续写任务中输入和输出之间内容和语言上持续、动态

33、的互动与协同；适度的内容提示条件，尤其是续写段落的段首句，为学生的内容创造提供了方向，有利于减轻认知负担，提升整体写作质量。2）评分员在评阅不同提示条件下的续作时，评分信度存在一定差异，其中在评阅仅有段首句提示的续作时整体信度最高。以下将围绕这两点发现进行具体讨论。针对研究问题 1，学生受激回溯结果表明三种任务条件下的作答过程包括一系列阅读、构思和写作的过程。这些过程之间并非互相独立，而是存在不同程度的互动。学习者会根据构思和写作的需要，不断返回原文寻找内容和语言上的线索与资源，也会根据写作中遇到的实际问题，重新构思部分内容框架或增添、简化相关细节。这说 31 张洁读后续写任务提示条件对写作

34、表现和评分信度的影响明学生在完成读后续写任务时，他们的思维过程并非阅读、构思和写作的线性叠加，而是根据需要不断循环往复，直至达成任务目标。这种持续和动态的互动由读后续写中输入和输出、理解和产出间的“差距”所激发（王初明 2021），体现了读后续写题型的核心构念，说明三种任务条件均能激发和考查该题型的目标能力。然而，尽管在无提示条件（任务条件 3）下的续作均分仅边缘性显著低于有提示条件（任务条件 1 和 2）下的续作，从评分员的反馈和学生的写作过程中可以看出，不同提示条件会对续写内容创造的过程和质量产生一定的影响。在有提示条件下，构思的认知负担有所减轻，特别是段首句为情节发展和内容创造提供了方

35、向，使得续写部分的内容更为合理，与上文逻辑衔接更紧密。在无提示条件下，学生在内容创造上需要付出更多的努力，如重复阅读结尾段落或努力关联过往阅读过的相关故事和经历，但他们仍然感到困难和不自信。这也构成了更大的认知负担，增加了试题难度，也在一定程度上影响了续作的整体质量（张洁等 2023）。另一个可能的原因是，不同的提示条件会影响任务中学生和原文的互动强度，从而影响写作过程与产出质量。如无任何外部提示或限制，学生就有可能在未充分理解前文的情况下随意发挥，互动协同的效应则会相应减弱（王初明 2019）。在本研究中，无提示条件下续写与原文的互动强度较弱，学生尤其是协同意识和能力相对较弱的学生更容易脱离

36、原文，创造出与原文情境和逻辑发展可能不够融洽的内容，从而导致产出续作的整体质量较低。研究同时发现，提示条件并非越多越好，加入关键词提示并没有显著提升学生续作质量，且回溯访谈显示大多数学生认为关键词对于帮助理解原文和构思的作用并不大，甚至限制了细节创造，增加了认知负担。有研究者（袁丹纯 2013；辛声 2017）发现，采用强化输入和明确指令的方式可以增强续作与前文在某些语言形式上的协同；Shi et al.（2020）发现，同时提供关键词和段首句的条件下写作质量最高。但本研究的结果显示，画出并要求使用关键词并未显著提升整体写作质量，且学生普遍反映关键词提示增加了认知负担。这一方面可能是学生自我汇

37、报的局限性，另一方面可能是读后续写的评分标准中包含内容、语言和篇章组织三个主要维度，而评分员基于这些维度对续写整体进行评价。三个任务间的差异在统计上不显著，可能是因为续作在语言和篇章组织维度上的表现中和了部分内容方面的差异，因此体现在均值上的差异并不显著。这也说明，提示条件对内容创造和语言使用可能存在不同维度和程度的影响，值得进一步关注。针对研究问题 2，从 MFRM 分析中各项评分信度统计指标来看，在评阅仅提供段首句的任务条件（任务条件 2）下的续作时，评分员严厉度的差异最小，同时自身 32 2024 年第一辑总第四辑一致性较高，前后较为稳定；在评阅提供段首句和关键词的任务条件（任务条件

38、1）下的续作时，评分员的自身一致性最差；而在评阅无提示条件（任务条件 3）下的续作时，评分员之间的严厉度差异最大。这说明读后续写任务提示条件的设计会对评分信度产生影响，提示条件过多或过少都可能会造成评分信度受损。造成上述结果的一个可能原因是读后续写属于内容忠实型读写结合任务（Ye&Ren 2023），内容创造是读后续写构念中的重要组成部分，对内容产出质量的评价也是读后续写题型评分的关键问题。如何让评分员能够更为一致地把握评分标准，使他们对内容创造质量的评价更为一致是确保评分信度的重要保障。适度的内容提示条件可以使续作中内容创造的方向更为一致，特别是段首句的提示可以体现命题人对于后续内容创造的期

39、望与引导，使评分员在评分时的预期和判断依据更为一致；无提示条件下的内容创造容易发散，故事发展的方向差异较大，不同评分员对可接受的内容创造方向可能存在不同的标准尺度，因此造成严厉度上的较大差异；而提示条件和要求越多，则可能对续作带来较大的限制，评分员在评分时需要关注的细节也更多（如是否使用了指定关键词、使用是否恰当等），受到某些与构念无关的因素或个体学生续作中非典型特征影响的可能性更高，不利于他们从多个维度出发整体对续写质量作出评判，导致自身一致性降低。6.结语本研究聚焦读后续写任务中的提示条件，采用实证研究的方法考察不同提示条件如何影响学习者写作表现和评分员的评分信度。研究发现，适度的内容提示

40、能够减轻学习者的认知负担，有助于他们创造内容，产出整体质量更高的续作；同时，适度的内容提示也能够帮助评分员更为一致地把握评价续作内容维度的标准尺度，保障评分信度。上述发现对读后续写命题设计和评分具有重要的启示意义，主要体现在以下三个方面。首先，在命题时应设置合理的提示条件，一方面需要确保试题能够考察目标构念，另一方面可通过恰当的提示增强学习者与原文的互动强度，同时控制任务难度。这有利于学习者产出与原文协同程度更高、更优质的作答，也有利于提升大规模考试的评分信度。其次，在开展评分员培训时，可以通过研讨进一步细化基于具体读后续写任务的内容期待，进一步统一对内容创造质量评价的标准尺度，保障评分质量。

41、最后，更为科学合理的考试任务设计和评价体系可以更好地引导一线教师在教学中使用正确的方法开展教学和备考，有利于发挥考试任务的正面反拨作用。本研究存在一定的局限性。每种任务条件下的续作样本量较小且来自不同班级，33 张洁读后续写任务提示条件对写作表现和评分信度的影响研究者虽然控制了参与学生的平均语言能力水平，但结果可能受到其他个体差异的影响。此外，对写作表现的比较主要使用评分员的整体评分和学习者自我汇报的续写过程，缺乏相对细致和客观的文本指标分析。后续研究可采用组内设计，并结合内容创造和语言使用的具体文本指标分析以及评分员的评分过程，进一步探究任务提示条件对读后续写写作表现和评分质量的影响机制

42、。参考文献Bonk,W.J.&Ockey,G.J.2003.A many-facet Rasch analysis of the second language group oral discussion task J.Language Testing,20(1):89110.Corbin,J.&Strauss,A.2008.Basics of qualitative research:Techniques and procedures for developing grounded theory M.Thousand Oaks,CA:Sage Publications.Cumming,A.H

43、.,Kantor,R.&Powers,D.E.2001.Scoring TOEFL essays and TOEFL 2000 prototype tasks:An investigation into raters decision making and development of a preliminary analytic framework R/OL.https:/www.ets.org/Media/Research/pdf/RM-01-04.pdf.Hughes,A.&Hughes,J.2020.Testing for language teachers(3rd ed.)M.Cam

44、bridge:Cambridge University Press.Linacre,J.M.2005.A users guide to FACETS rasch-model:Computer programsProgram manual 3.58.0.M.Chicago:W.Myford,C.M.&Wolfe,E.W.2003.Detecting and measuring rater effects using many-facet Rasch measurement:Part I J.Journal of Applied Measurement,4(4):386422.Myford,C.M

45、.&Wolfe,E.W.2004.Detecting and measuring rater effects using many-facet Rasch measurement:Part II J.Journal of Applied Measurement,5(2):189227.Peng,J.,Wang,C.&Lu,X.2018.Effect of the linguistic complexity of the input text on alignment,writing fluency,and writing accuracy in the continuation task J.

46、Language Teaching Research,24(3):364381.Plakans,L.2013.Assessment of integrated skills A.In C.A.Chapelle(ed.).The encyclopedia of applied linguistics C.Oxford:Blackwell Publishing Ltd:18.Shi,B.,Huang,L.&Lu,X.2020.Effect of prompt type on test-takers writing performance and writing strategy use in th

47、e continuation task J.Language Testing,37(3):361388.Wang,C.&Wang,M.2014.Effect of alignment on L2 written production J.Applied Linguistics,36(5):503526.Ye,W.&Ren,W.2023.Toward a better understanding of skill integration in integrated writing:A structural equation modeling study of EFL secondary lear

48、ners test performance J.Reading and Writing,36(10):27392762.34 2024 年第一辑总第四辑陈康.2019.高考英语概要写作与读后续写考查目标对比研究 J.中小学英语教学与研究,(4):6568.刘庆思,陈康.2016.关于一年两考高考英语试卷中读后续写设计的研究J.中小学外语教学(中学篇),(1):15.王初明.2014.内容要创造语言要模仿有效外语教学和学习的基本思路 J.外语界,(2):4248.王初明.2019.运用续作应当注意什么?J.外语与外语教学,(3):17.王初明.2021.语言习得过程:创造性构建抑或创造性模仿

49、?J.现代外语,(5):585591.王初明.2022.外语水平考试如何促学续论的启示 J.语言测试与评价,(1):2634.王初明,亓鲁霞.2013.读后续写题型研究 J.外语教学与研究,(5):707718.王敏,王初明.2014.读后续写的协同效应 J.现代外语,(4):501512.辛声.2017.读后续写任务条件对二语语法结构习得的影响 J.现代外语,(4):507517.辛声,李丽霞.2020.内容创造对语言协同和续写任务表现的影响 J.现代外语,(5):680691.袁丹纯.2013.从协同角度探讨写作指令对二语写作的影响 D.广州:广东外语外贸大学.张洁.2022.测试任务条件

50、对读后续写思维过程的影响研究 J.外国语言文学,(5):3847.张洁,王敏,陈康.2023.体裁对读后续写中协同效应和写作质量的影响 J.现代外语,(2):259269.张秀芹,张倩.2017.不同体裁读后续写对协同的影响差异研究 J.外语界,(3):9096.薛慧航.2013.浅析“读后续写”中趣味性对协同的影响 D.广州:广东外语外贸大学.作者简介张洁，博士，上海财经大学外国语学院副教授。主要研究方向为语言测试、外语教学。电子邮箱： 112 2024 年第一辑总第四辑English AbstractsEntangled relationship:Chinese parents invo

展开阅读全文