收藏 分销(赏)

第七章 语言测试的效度研究.pdf

上传人:曲**** 文档编号:556176 上传时间:2023-12-11 格式:PDF 页数:26 大小:2.28MB
下载 相关 举报
第七章 语言测试的效度研究.pdf_第1页
第1页 / 共26页
第七章 语言测试的效度研究.pdf_第2页
第2页 / 共26页
第七章 语言测试的效度研究.pdf_第3页
第3页 / 共26页
第七章 语言测试的效度研究.pdf_第4页
第4页 / 共26页
第七章 语言测试的效度研究.pdf_第5页
第5页 / 共26页
点击查看更多>>
资源描述

1、第六章语言测试的效度研究本章将研究所有语言测试中最重要的问题:效度问题。效度是测试评估中最重要的指标。一项测试如果从设计目的角度讲不是有效的,那么测试分数的推断和解释自然不会准确(Aldersonetal.1995:170)o Messick。992:89)指出,众多测试设计者承认其有义务提供证明 测量结果富有价值的效度证据,但遗憾的是很少有人真正这样去做。Hughes,Porter以及 Weir认为提供令人满意的效度证据是任何严肃测试必不可少的条件。第一节效度的概念效度是教育和心理测量学中的一个概念,由来已久。Kelly(1927:14)指出“效度问题 就是一项测试是否真正测量了它声称所要测

2、量的东西”。Lado(1961:321)提出了这样的问 题:“一项测试测量了它应该测量的东西了么?如果是,那它就是有效的。”上述是对效度 进行的概括性或普遍定义。下面我们从不同维度解读效度概念。Henning(1987:89)对效度的理解偏重测试的设计目的,该定义为:一般来说,效度 是指一项测试或测试一部分测量它声称测量内容的合适性(appropriateness)o测试有效是指 它测量了它应该测量的东西。当效度用来描述一项测试时,它应该与“for”连用。任何一 项测试只有针对特定的目的才有效。该定义突出了测试研发和使用的目的性。测试使用最普 遍的问题之一就是测试误用,即测试不是本着最初的设计

3、目的而得以运用,当然这并不是说 一项测试不能有效于多个目的,无论它出于何种目的被运用,其有效性证据必须要建立并加 以呈现。我们不能简单地说“该测试有效”,而应回答下面的问题“你是怎么知道该测试有 效的?”以及“该测试有效性体现在哪里?Henning的定义中还考虑到了效度的程度问题:测试相对其设计目的或多或少是有效的,即效度不是一个“要么有要么无”的概念,而是一 个相对概念(Alderson et al.1995:170)oWeir认为效度存在于测试分数的解释中,而非测试本身。效度被认为是测试分数表征 受试语言知识或技能水平的准确程度。美国教育研究协会、美国心理学协会和国家教育测量委员会联合颁发

4、的教育和心理测 试标准(Standards for Educational and Psychological Testing)效度概念是指基于测试分数进行的推断的合适性(appropriateness)有意义性(meaningfulness)以及有用性(usefulness)o对效度的定义如下:效度指的是证据及理论对包含在所提议的测试使用之中 的测试分数解释的支持程度(邹申2005:185)oMessick的类似定义为:由测验分数或其他评价方式做出某种推断,效度就是对这种推 断的恰当性和充分性能在多大程度上得到经验证据及理论基础的支持所做的综合评价。概括 地说,效度是对分数解释及使用的证据和

5、潜在影响的归纳总结(转引自张凯2006:167)oMessick定义中的不同经验证据和理论基础就构成了效度的多层面(multifaceted)属性,即需要不同类别的证据证明分数解释和推论是有效的,证据之间的关系不是选择而是互为补 充。不同类别的证据一度被认为是效度的不同种类,而事实上它们是有效解释测试分数的不 同来源。效度应该被科学地定义为一个“一元化”或“整体”概念(unitary concept),即把 不同类型的效度看成是包含在此一元化效度概念中的不同方面(Bachman 1990)。第二节效度证据在解释效度证据之前,需要了解“效验”(validation)这一概念,它是指对一项测试进

6、行效度研究(邹申2005:192),证明该测试有效的过程,亦即收集证据支持基于测试分数 所做的推断的过程。对某测试分数有效程度的判断需要收集在分数与分数解释及应用之间建 立关联的信息得以证明,Messick将其视为测试解释和应用的证据基础(evidential basis 翻阅多本测试相关书籍发现不少学者将以不同方式构建效度的证据视为不同的效度类型,认 为效度存在着不同种类,例如表面效度(face validity)、内容效度(content validity)、效标关 联效度(criterion-related validity)、构想效度(construct validity)语境效度(c

7、ontext validity)以及 后效效度(consequential validity)等等。还有学者使用了更加概括的术语对效度进行归类,例 如AldersonetaL指出的内部效度(internal validity)(表面效度、内容效度及应答效度)和外 部效度(external validity)(效标关联效度)以及Weir归类的测前效度(priori validity)(基 于理论的效度即构想效度和语境效度)和测后效度(posteriori validity)(评分效度、效标 关联效度和后效效度)等。另外,效度还可以分为实证效度(empirical validity)和非实证 效度

8、(nonempirical validity)o非实证效度不需收集数据、运用公式,不存在系数或数学计 算,如表面效度;而实证效度通常需要利用数学公式进行效度系数计算,如效标关联效度(Henning 2001:94)o无论对效度进行怎样分类,效度证据的作用都是同一的,即为测试提 供效度依据或证据。因此本章没有使用效度类型作为标题,而使用“效度证据”这一涵盖面 更广的术语取而代之。下面分别就主要的、应用广泛的效度证据进行解释和说明。1.表面效度表面效度是指一项测试表面上的可信性以及公众的接受性(I ngram 1977:18),它不具有 心理测量学特征,而更体现了一种公共关系(public rel

9、ations)o表面效度说的通俗一些就是 测试看上去是否测量了它所要测的能力。例如测试发音如果不要求受试说话,便缺乏表面效 度(Arthur Hughes 2000:27)。实践中,表面效度通常被测试研究者们视为不科学、不相关的 证据(Stevenson 1985),因为它出自“外行”人(如行政人员以及测试的非专家使用者)对 测试内容的直觉判断,该判断通常是整体性的(holistic),如“该测试看起来不是有效的二表面效度在语言测试领域并不是一个新概念,但是对其赋予关注是新近的发展,尤其是 交际语言测试(CLT:communicative language testing)问世以来。大多数交际

10、测试的设计者 将表面效度视为所有效度类型中最重要的一个。他们主张交际语言测试应该仿照真实世界中 的语言交际情形。尽管“真实性”(authenticity)经常被引用证实测试的效度,但到目前为止,该术语本身却没有一个明确的定义和解释,因此也只能将模仿“真实生活”的呼吁归于表 面效度的范畴。有学者对表面效度持否定观点,认为表面效度没有任何固定的、确切的内涵,其出现和使用只能制造学术界的混乱(邹中2005:187)o而其他一些学者对表面效度持正 面评价。Alderson et al.认为表面效度在测试中的作用非常重要:一方面,一项测试如果表 面看来不是有效的,其使用者就不会本着测试既定目的严肃对待该

11、测试。另一方面,如果受 试认为一项测试表面看来是有效的,他们的考试动机便能得以维持,也就更容易发挥其最佳 水平,并对测试项目进行适当应答,换句话说,表面效度对应答效度会产生影响。表面效度的建立可以通过下列方式完成:一是采访受试,二是要求他们填写调查问卷,反馈其对测试的态度、反应以及感受等。调查结果可通过统计方法进行总结,考试项目和测 试构成成分的可接受性就能得以确定(AldersonetaL 1995:172-173)。2.内容效度测试内容(testcontent)包括测试主题(themes)措辞(wording)、项目、任务或问题 的形式(fbrmat)以及施测和评分程序指南等(标准1999

12、:11)。本小节的内容效度主要关 注测试主题方面,下文的语境效度将详细阐述措辞、应答形式等测试内容。内容效度通常是指一项测试的项目(item)、任务(task)以及问题(questions)代表了 所界定的内容域(domain of content)的程度问题(标准1985:10)。Bachman(1990:244)指 出一项测试具有内容效度的两个要素为:一是内容相关(contentrelevance),二是内容覆盖(content coverage)。内容相关涉及的是测试项目或任务与界定的测量内容范围相关联程度。内容覆盖指测试项目或任务是否为欲测语言知识和能力的典型代表或样本2(repres

13、entativeness or sample)o在创建任何一项测试之初,研究人员应该提供明确测试具体 用途和规定测量内容范围的测试设计细则(specifications),界定出欲测的语言知识、技能和 能力(即内容域content domain或行为域behavioral domain)以便从中生成测试项目或测试 任务。就用途而言,所要测量的内容域或行为域是根据测试具体目的而定的。对于学业考试 来说,课程大纲或课程教学目标要求便构成了细则中的测量内容范围。如果测试的实际使用 目的与其最初创建目的不符,就要考查原始测试内容范围相对新用途的合适性。内容效度需 要注意的另外一个方面是:测试项目的难易

14、程度是否较好地反映了测试设计细则中对这些语 言能力水平的要求(张凯2006:177)0在实践中,测试往往倾向于容易测什么便测什么,而不考虑内容的重要性程度。例如过 去许多语音测试着重关注音位区分,而不测量重音(stress)或语调(intonation)特征,究其原 因就是设计音位区分的试题项目比重音和语调更加容易。一旦测量内容范围划定,测试开发者还应为各个测试项目赋予权重(张凯2002:140)o 例如一项语法测试应该对各个语法知识点所占比重交代清楚(如简单将来时10%,不可数 名词15%,关系代词10%等等)。如果测试考察阅读能力,那么各个阅读子能力(sub-skills)也要相应地给予权

15、重(如从语境线索中获取词义20%,寻读30%,理解和推理40%等等)。赋予权重的目的是呈现各个测试项目的重要性和意义(Heaton 2000:161)oAnastasi提出了建立内容效度的指导原则:1)必须系统分析欲测量的行为域以便确证其主要方面都被测试项目涵盖,并且是以合 适的比例涵盖;2)相关行为域必须做提前充分的描述,而不是在测试准备完毕后加以定义;3)内容效度取决于受试测试反应与行为域的相关性,而非项目内容表面上的关联性。建立内容效度测试内容效度证据获得通常需要进行逻辑实证(logical and empirical)分析,考查测试 内容是否充分代表了内容域以及内容域是否与基于特定目的

16、的分数解释相关。评价内容效度一般是通过比较测试项目和测试设计细则来完成的。邀请相关语言测试专 家对测试项目与欲测量内容范围的吻合程度进行评判,方法有四:一是制作量表,专家判断测试各个项目满足某些标准的程度。二是考查专家对某一项目代表性的意见一致性程度。Alderson和Lukmani(1989)曾经 使用的证据收集方法就是向一组评测专家提供测试内容范围清单,即测试需要考察的语言知 识和能力,并让所有专家就每一个测试项目测试的相应内容作出判断。进而收集整理专家评 测结果,便会得出评测结果的一致性(consensus)程度。如果某一项目达成的意见一致性 低,那么它的内容效度就低。C.H.Lawsh

17、e(1975)就此还设计了计算内容效度的公式,用 以精确判断专家评测所达成的一致性程度:每一位专家针对每一个项目作答下列问题:“该 项目考察的知识或技能对于未来工作表现是基本的(essential)、有用但不基本(useful but not essential)还是不必要(not necessary)?就每一个项目,回答“基本的专家人数被统计和 计算,如果多于一半的专家表明该项目是“基本的”,那么它至少具有一定的内容效度,表 明“基本的”的专家人数越多,内容效度越高。该公式如下:n-(N/2)CVR=-N/2其中 CVR(content validity ratio)表示内容效度比率;%(n

18、umber of panelists indicating“essential”)表示赞同该项目是“基本的”专家人数;N表示专家总数。假设专家总人数为 10,会出现正比率(positive CVR)负比率(negative CVR)以及零比率(zero CVR)的情形:当 3一半以上但非所有的专家表明该项目是“基本的”时,CVR的变化范围从.00到.99,此时 出现的是正比率;当不到一半的专家表明该项目是“基本的”时,CVR的值就是负数,此 时出现的是负比率;当正好一半的专家表明该项目是“基本的”时,CVR的值是零,此时 出现的是零比率。另外,为了避免一致性意见产生的偶然性,Lawshe还提供

19、了不同专家组 人数对应的内容效度比率最低值。例如,当专家人数为10名时,对应的最低值为.62,一旦 某一项目的内容效度比率没有超过该数值,那么它就将被剔除(The Science of Psychological Measurement:160-161)o三是开发精细的考试细则,全面覆盖内容域,在每一具体的分支内容域下编写多个测 试项目,在测试建构时随机抽取不同域下的项目,以此保证测试选编项目具有覆盖性和代表 性(Henning 2001:95-96)。四是通过定量分析,一些定量的指标有助于建立内容效度,这些指标有:1)题目与项目匹配的百分比;2)重要项目匹配的百分比;3)项目权重与代表这些项

20、目的题目数的相关;4)题目-项目的一致性指数;5)没有反映到测验中的项目的百分比(张凯2006:179)。内容效度的重要性一项测试具备内容效度重要性体现在以下几个方面:一是测试的内容效度越高,那它就 越可能准确测量了其应该测量的东西。如果测试设计细则中界定的主要知识技能没有被充分 地体现或者根本没有体现,这样的测试就不可能是准确的。二是类似上述测试还会产生不良 的反拨效应(backwasheffect)。测试中没有考察的知识内容在教学实践中就容易被忽视。解 决这一问题的最佳方式就是详尽列明考试细则中的语言知识覆盖面并保证测试项目合理地 反映了测量内容范围(Arthur Hughes 2000:

21、22-23)。内容效度的局限性内容效度的局限性主要体现在以下几个方面:一是,内容效度考证的前提是内容域和行为域的细致界定。可实践中,定义一个清楚的、不含糊的语言或语用使用的内容范围难度是很大的,即使能够把内容范围中的所有项目都一 一列出,我们也只能够根据受试的表现推断他们能够做什么,而无法判断他们不能做什么(张 凯 2006:179)0二是,评价内容效度通常是由专家来完成的,而专家的意见往往不能达成一致,甚至存 在较大分歧。差异较大的评判结果揭示了被测的语言知识技能缺乏明确的界定,比最初设想 要复杂的多、有争议的多。此时,测试研究者便面临两难的困境:如果专家对某一测试项目 所测的知识和技能没有

22、达成共识,那么该测试项目究竟测量的是什么?此项目是否要被放弃 呢?对于上述问题最好的解释是:测试效度是相对的,而不是绝对的。如果内容效度证据不 足或存在问题,测试的开发者可以求助于其他证据来源,例如外部效度(同期效度)、表面 效度或是应答效度等(Alderson et al.1995:175-176)。三是:内容效度只涉及测验内容和行为域之间的对应关系或吻合程度,完全没有把受试 测试中的表现和反应予以考虑。3.语境效度Weir在其著作LangMage Testing and Validation中用语境效度这一概念替代了传统意义上 的内容效度,他认为“语境”更加强调了语言运用的社会维度(soc

23、ial dimension)o Weir对 语境效度的概念是这样表述的:语境效度关心的是测试任务对整个测量内容范围的代表性,4既包括测试任务作出的语言要求、对话人要求,又包括了测试任务作答过程中的情境要求(任 务本身以及实施环境)。事实上,语境效度关注的是测试要尽可能接近“情境真实(situational authenticity)o 虽然在语言测试中完全的情境真实是不太可能获得的,但要尽量创设逼真的语境,因为测试 归根结底是要看受试在未来真实环境中的言语表现,如果测试本身就不真实,那么分数的解 释和推断就难以被普遍接受。Weir分别从任务环境(task setting)、任务要求(task

24、demands)、自然环境和测试监考(setting and test administration)三个方面考核如何保证语境效度:Context Validity for Reading and WritingSetting:TaskDemands:Task Purpose*Linguistic:Response format-Discourse mode Known criteria-Channel Weighting-Text length Order of items-Writer-reader relationship Time constraints-Nature of infor

25、mationSetting:-Content knowledgeAdministration-Lexical*Physical conditions-Structural*Unifbrmity of administration-Functional*SecurityContext Validity for Listening and SpeakingSetting:TaskDemands:Task Purpose*Linguistic:Response format-Discourse mode Known criteria-Channel Weighting-Length Order of

26、 items-Nature of information Time constraints-Content knowledgeSetting:-LexicalAdministration-Structural*Physical conditions-Functional*Unifbrmity of administration*Interlocutor:*Security-Speech rate-Variety of accent-Acquaintanceship-Number of speakers-Gender5任务环境任务环境主要包括测试指导语(rubric),目的(purpose),应

27、答形式(response format)、已知评分标准(known criteria 加权(weighting)、项目顺序(order of items)及时间控制(time constraints)。1)测试指导语测试指导性话语会影响受试的作答反应。指导语不应存在歧义,应明确受试的具体任 务,以致他们不会误解题目的要求。测试指导语一般应该满足下列条件:易于受试理解、全 面、明确、简短而且简单。指导语难度不应大于测试任务本身。Khalifh(2003:73)就测试指导语提出了一系列问题:测试指导语是否就受试应该完成的任务给予了明确的要求?测试指导语书写是否尽可能简短并使用了简单句?测试指导语的

28、语法是否准确?测试指导语的拼写是否正确?测试指导语是第一语言还是目标语言?测试指导语是否为受试所熟悉?测试指导语就每一部分的作答时间要求是否给予明确的指导?测试任务是否要求不同类型的应答方式?如果是,应该为每一种类型的应答提供独立 的、具体的指导语。2)目的指导语应该向受试明确测试任务的具体要求,以便他们采取最适合的策略作答。伴有 明确目的还有利于受试设立目标(goal-setting)和实施监控(monitoring),此为语言加工中 的两个主要元认知策略。在写作测试中,指导语的措辞,即受试所理解的写作目的,在很大程度上会影响他们 的作答。Hamp-Lyons(1991)指出在设计写作测试时

29、,一定要认真考虑提示语的选择和措辞。在阅读测试中,设计者应该将阅读目的与适合的语篇类型匹配,如广告语篇的阅读目的是发 现某一产品是否值得拥有;小说语篇的阅读目的是从中获得乐趣;信件语篇的阅读目的是查 明寄信人以及信件的主题内容等。阅读目的决定着应答实施策略,如果阅读目的是浏览篇章 提取具体的日期或数字,那么寻读(scanning)就会被选择作为应答策略。在测试的建构中,项目的设计要尽可能真实反映受试在未来目标情境中将会接触或遇 见的任务,目的也要尽可能一致。Weir提出的对目的的要求为:向受试呈现的测试目的是 否明白不误?目的是否适合真实世界的要求?3)应答形式测试的应答形式很大程度上影响任务

30、设计所需的认知加工过程(cognitive processing)。以多项选择(MCQ)测试项目为例(受试仅需从四个选项中挑出一个准确的答案),作为语 言能力测试手段,它的效度值得怀疑,Hughes(2003:75-80)列出了多项选择题的各种问题:该测试技术只考察了受试的识别技能;猜测对测试分数存在较大但不可知的影响;该测试技术严重限制了被测内容;设计成功的选项难度较大;造成不良的反拨效应;容易造成考试作弊。6受试有时作出正确选项的策略是排除法,而非正向思维得到准确答案。此认知加工过程与真实世界中的问题处理方法相去甚远。4)已知评分标准受试不仅要知道他们在测试中需要完成哪些具体任务,还应该知

31、道其任务表现如何被 评价。评分标准应于测试前向受试及辅导教师公开,包括正确性标准、评分步骤以及各个测 试项目得分最终如何整合换算成总分。如果某些标准不在评分标准之列,受试定会相应调整 作答过程中的“计划”(planning)和“实施(execution)策略。举个例子,假如标点符号和 单词拼写的准确性不包含在评分标准范围之内,受试显然不会浪费时间检查标点以及拼写错 误。5)加权所谓加权就是为测试的某一项目、任务或部分赋予更多的权重,突出其对整个测试的相 对重要程度。如果测试的不同部分被赋予了不同的权重,应该在时间和分数上有相应的体现,同时要向受试公开以便其有效地分配时间和精力。同样,如果某些评

32、分准则获得了更多的加 权,受试一旦知晓,便能将时间和精力投入在更重要的环节上。加权通常在任务层面(例如书写议论文比书写明信片更加重要)比较容易实施,而对于 分离式测试较难实现,例如考察词汇语法,现在进行时与现在完成时哪个更重要?很难判断。6)项目顺序以往的许多阅读测试中(尤其是仔细阅读),文章后面所附问题的顺序十分杂乱,没有 按照一定的线性(linear)或渐增(incremental)阅读顺序组合,导致受试返回原文寻找答案 毫无章法可循,完全是随机状态。仔细阅读中问题的设计应遵循连续顺序(serial order),因 为有证据表明我们在建构意义时就是遵照此种方式进行的,即渐增性(incre

33、mentally)o在阅 读测试中,应将快速阅读和仔细阅读分离,同时在快速阅读中还要将略读(skimming)和寻 读(scanning)继续分离。问题设计的顺序要能够反映出基于某一特定阅读目的心理加工涉 及的技能和策略的实施顺序。仔细阅读中问题应该遵守线性序列,而寻读中的问题排列大可 不必这样,因为此时阅读目的是在文章迅速定位需要的信息,如果线性排列问题,任务难度 会有所降低,可以随机排列。听力理解题目的顺序也要遵从信息在文章中出现的顺序。7)时间控制对时间的控制需要注意:测试所设置的每部分时间(包括准备时间和作答时间)是否合 适?阅读和听力理解测试中的时间控制(包括语篇加工和问题回I答时间

34、)很重要。在听力 理解中,问题与问题之间要留出足够的时间供受试理解加工和书写。在阅读测试中,如果提 供给快速阅读的时间过长,对考察的快速阅读能力必定产生干扰。例如测试考察的是快速提 取信息的能力,一旦时间充分,受试自然会遵循线性阅读方式找到答案,时间的控制将影响 受试的认知加工过程,还会影响到测试任务的理论效度(即构想效度)。计算机协助的测试 能够解决这一问题。另外一个问题是:在规定的时间内受试能否充分地作答。在非快速(non-speeded)阅读测试中,时间的分配要足以使大部分受试完成测试任务。如果时间过 于紧张,受试必然会产生压力,不利于发挥其最佳水平。受试应被告知每一部分的答题时间,每一

35、部分答题时间的分配还要反映出该部分在整个测试中的重要性。一般来说时间的限定通 常是经验验证性的,即要进行试测确定时间范围。7在写作测试中,完全模仿现实世界中的真实写作场景是不大可能的。因为现实生活中 对写作时间没有特别严格的要求,作者有充分的时间准备和收集资料以展示他们的写作能 力。而出于测试安全性问题考虑,不可能在测试中设计时间较长的、过程导向的写作任务,但受试的作品(writing product)应具有足够的长度利于评判其真实写作水平,J acobs et al.(1981:19)做了一项研究,表明30分钟的写作时间能够充分展示受试实际写作能力。在口语测试中,有无准备时间对受试表现会产生

36、影响。这里有必要区分长话论(long speaking turns)和短话论(short speaking turns)。长话论,如口头报告,需要更多的准备时间。短话论较普遍,即兴程度高,一般都是片语松散组合。如果长话论是口语考试的一个显著特 征,测试设计者就要认真考虑留给受试具体多少准备时间。Foster和Skehan(1996)分别考查 了在无准备(no planning),“无指导准备(unguided planning)以及“有指导准备(guided planning)三种情况下受试的不同表现(包括准确性、复杂程度以及流利性)。结果显示:“无 准备”条件对受试最不利。有时间准备的受试比

37、无时间准备的受试准确程度高,但是口语表 现最佳的是“无指导准备”条件下的受试,在此条件下受试将全部时间用于操练“语言”,而“有指导准备”的受试更多地运筹任务如何完成。任务要求1)语篇模式(discourse mode)写作写作要求涉及三个方面:体裁(genre)、修辞任务(rhetorical task)以及阐述方式(patterns of exposition)o Weigle(2002:63)指出“体裁”关注的是作品的交际功能和期待形式,包括信 件、实验报告等;“修辞任务”主要是指传统意义上的叙述、描写、说明以及议论等语篇样 式;“阐述方式”是指阐述的具体分类或特定的写作指导,如做比较、呈

38、现因果关系等。Weir指出增加受试写作任务数量可以降低他们面对不同类型的体裁和题材写作表现上 的变数,因此可以设计多个写作任务使受试能够最大限度地发挥他们的写作能力,效度评估 要以整个测试而非某一具体写作任务为基准。研究表明增加写作任务数量有利于效度的提 高,因为一个写作任务不足以代表受试整体写作能力。J acobs等指出写作测试中较为可行的 方式是设计两个作文任务。设计者必须保证写作任务及写作条件的设定必须具有足够的代表 性。阅读基于测试目的以及目标读者,文本选择的标准也应发生变化。例如,在学业成就阅读 测试中,设计者本身已经建立了许多的参数,即教和学的语篇类型;在水平阅读测试中,所 选择的

39、篇章应符合受试未来目标情境所接触的篇章类型,如果是为理科(自然科学)学生设 计阅读篇章,设计者选编的材料最好体现典型的科学学术语篇特征。在选择语篇类型的基础 上还应考虑修辞特征:连贯与衔接、语法程度要求以及适合受试的修辞结构等。另外,所选 择的语篇是否适合于意欲测试的技能也应加以考虑。口语有效的口语测试应包括互动环节(reciprocity conditions)o在互动性的口语交流中,对 话双方都必须根据对方的反应及时调整词汇和信息,这便要求受试在对话中有更多的投入。设计口语测试应考虑“话语方式”(discourse mode)是否适合于所测的技能或策略。2)交际渠道(channel of

40、communication)口语测试中的交际渠道对受试表现影响很大。“模拟电话交谈”如被设计成两对话人处 于不同的房间,尽管会为受试增加更多的负担,但符合真实情境,考察受试在非面对面接触 条件下掌控对话交流的能力。另外,口试中过多的任务信息输入(如过多的文字描述或图表 8信息),会增加任务难度,因为受试接触的语码难度有所增加。在测试设计中要酌情考虑非 言语信息的特性和数量,另外版面和字体的设计也要认真思量。3)文本长度(text length)J ohnston(1984:151)曾经指出用于阅读理解的语篇数量要多而且简短,这种观点在雅思和 托福考试中都曾有所体现,但在TEEP(Test of

41、 English for Educational Purposes)测试中,用于 测验快速阅读技能的语篇长度都在1,000单词以上,因为这更符合现实要求。Engineer(1977)指出,使用超过1,000词汇的语篇可以测到不同的阅读能力,如语篇层面的而非句法或词汇 层面的能力。另外在阅读测试中,选定的篇章是否满足欲设题目的数量和类型要求,如过于 短小的文章不适合考察略读或寻读的能力,而只能考察仔细阅读能力。同时文本的长度对于 认知加工过程中需要的信息资源也有影响,受试接触的文本越长,加工过程需要运用的语言 知识资源就越多。4)篇章信息性质(nature of information in t

42、he text)篇章内部信息的形式是抽象还是具体取决于测试的性质。两种类型的信息可以出现在 同一语篇中。抽象信息无论从认知角度讲,还是从语言角度讲都更加复杂而且加工难度更大。从效度角度讲,信息类型是否符合受试的目标情境要求。5)所需的内容知识(content knowledge required)测试中完成某一任务所需的内容知识将影响任务处理方式。语篇的内容、受试的背景 知识以及专业知识(subject matter knowledge)之间的关系需要认真考虑(Douglas 2000)。语篇在体裁、修辞任务以及阐述方式上应适合于广大受试,而不应偏袒或有益于部分考生,针对背景不同的考生(het

43、erogeneous groups)在选择题目时一定慎重。语篇内容相对受试要 足够熟悉,以致他们能激活头脑中的图式(schemata),实施适当的技能和策略。但是语篇 内容相对受试也不能过于熟悉,否则受试作出正确答案不是基于理解加工而是依靠先前知识 的积累。在写作测试中,设计作文题目需慎重。设计者应保证受试就该题目至少能够写些东西。同时这些题目在受试看来是现实的、适当的以及可行的,否则他们不会发挥全力作答。写作 测试中的另外一个问题是:是否允许提供给受试多个备选写作题目。J acobs等(1981:1)指出最好的方式是仅提供一个写作题目,因为过多的选项会增加测试的不可控变数。他们进 而提出了一

44、个问题:受试分数的差异究竟是写作能力的真实差异还是不同题目写作造成的差 异?结论是:除非所有的受试参与的是同一个写作任务,否则没有可靠的证据表明分数间的 差异原因。另外如果受试的写作题目不一,评分者一致性程度就要降低。提供给受试一定的 书面或口语素材,可使他们获得大致相等的专门知识,有利于测试效度的提高。Campbel。990)指出“阅读为了写作”的模式在学术写作测试中对受试较为有利。总之在设计测试内容知识时需要了解下列几个问题:题目是否适合受试年龄段的经验或水平?题目是否适合每一位受试?题目不应该存在偏袒(城市/乡村,男生/女生以及文化);是否存在不适合的题目,如战争、死亡、政治以及宗教信仰

45、,冒犯或挫伤受试?题目中是否含有过多的文化内涵?题目应该是未知(unseen)的,但应该是熟悉的,受试能够利用相关图式解决问题;96)输入和输出(input and output)在任何测试中受试都要加工输入信息(文本或语篇),并进行输出。应观察一些输入和 输出的语言变量:即词汇、结构以及功能,并考查语言测试中输入信息和输出信息对词汇、语法以及功能项目的要求是否适合于受试的水平和程度。7)书面语中的对话人变量:受话者(interlocutor variables in written language:addressee)写作的目的会影响写作过程,写作的对象将要影响写作的内容和性质。例如一封“

46、感 谢信”,写给自己的朋友和写给不熟悉的前辈一定不同。因此无论是写作测试还是阅读测试 都要设定对象。8)口语中的对话人变量:输入维度(interlocutor variables in spoken language:input dimensions)口语测试中对话人的言语一定程度上影响受试的表现,因此需要考虑由对话人语言使 用特征所引起的受试表现上的差异,例如说话频率、口音、发音清晰度以及话语长度等。为 了保证测试的效度,应向受试提供同等的机会,每一位受试面对的对话人变量不应有较大差 异,即对话人在口语测试中的会话贡献要尽量一致和统一,在测试中,要保证双方会话贡献 基本持平。语速(speec

47、h rate)评判速度的计量单位是一分钟说多少词(wpm)。Buck(2001:38)研究显示语速越快,理 解难度越大。L-I 音差异(variety of accent)不同的语言使用者会以不同的方式发音。结果显示口音越重,理解难度越大。不熟悉 的语音会严重影响受试的理解。对话人的最佳人选是目标语言使用环境中的讲话者(Buck 2001),如果该条件不能满足,最低限度是对话人具有清晰的、可以理解的语音和语调。熟悉程度(acquaintanceship)对对话人声音的熟悉程度对测试结果也有影响。对于受试来说,与他们熟悉的人群交谈 较为容易,测试中受试越是状态放松,越能呈现他们真实的口语水平。因

48、此测试设计者需要 考虑受试在未来目标情境中将会与哪些人群对话交流。数目(number)口语交际中的参与者数目、被描述图片中的或被讨论的人物数目及其对应的区分将影 响受试表现。在听力测试中,异性之间的对话比同性之间的对话更容易区分。同理,描述图 片中异性所为比描述同性所为要简单,因为后者需要受试运用更多的语言来加以区分。总之测试交际中的参与人数应该尽量与真实世界中的情形相符。性别(gender)有证据表明口语交流中对话双方的性别因素对测试表现会产生影响(OSullivan 2000),此项应该在考试规范中有所描述。一些受试与女性对话人交流更加容易,因为她们更善于维 持对话,而男性容易打断对方。同

49、理,测试参与者的性别特征也要尽量符合真实世界交流参 与者特征。总而言之,对话人特征,即语速、口音、熟悉程度、性别和数目,要适合于特定的测 试目的。环境及测试监考影响测试效度的一个重要因素就是测试实施的环境。所有的考点实施步骤应该一致,即所有的规范和程序都应统一。应提供给监考人员清晰准确的监考操作指南,使其在测试开 10始前熟悉所有考试环节:所有测试条件要统一标准(尤其是听力测试中房间的安排),而且 备有相应的设备;测试开始前一定要检查测试材料和测试设备以防出现问题。所有的监考细 节在考试开始前都应该敲定。1)物理环境(physical conditions)测试的物理环境主要是指测试场所、背景

50、噪音、现场发音或录制的语音材料、灯光、空调设备以及电力设备。上述方面在听力测试中尤为重要,应保证良好的音响效果和最小的 背景噪音。听力测试中的噪音环境或是不良设备会严重影响受试的认知加工过程,即作答表 现。2)监考统一性(unifbrmity of administration)监考实施的原则和程序一定要统一,所有受试接受的测试外部条件应该一致。如果不 能统一,例如某一考场给予学生额外的准备时间、作答时间或是检查时间,测试基于理论的 效度(构想效度)就要降低,因为受试执行的加工过程(executive processing)在不同的考 点会呈现不同。3)安全性(security)测试的具体内容

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 行业资料 > 化学工业

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服