资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第一节 语言测试与教学法的关系,辨证关系:,英语测试是对英语教学结果的检验,是英语教学法的检测工具,是英语教学中不可缺少的重要环节。,英语教学法是英语教学手段理论化的方法,是英语测试的标准。,英语测试法应适应教学法,否则测试方法缺乏有效性、客观性和可信性。,教学法应为测试法提供合理的标准,否则教学法缺乏有效性、教育性。,1、应试教育 初、中、高考 指挥棒?,2、Arthur Hughes 教学与测试=伙伴?,3、大学英语四六级考试成绩=学位?,4、各级各类职称=外语成绩?,5、标准化考试=多项选择题?(multiple choice),6、取消考试?,思考,第二节 国外英语测试理论的发展,Old Testament:Judges(旧约全书:士师记第12章),Jephthah then called together the men of Gilead and fought against Ephraim.The Gileadites struck them down because the Ephraimites had said,“You Gileadites are renegades from Ephraim and Manasseh.”The Gileadites captured the fords of the Jordan leading to Ephraim,and whenever a suvivor of Ephraim said,“Let me cross over,”the men of Gilead asked him,“Are you an Ephraimite?”If he replied,“No,”they said,“All right,say Shibboleth”If he said,“Sibboleth,”because he could not pronounce the word correctly,they seized him and killed him at the fords of the Jordan.Forty-two thousand Ephraimites were killed at that time,特点:,将心理测量法引入语言测试,强调信度(reliability)和客观性(objectivity)。,将统计方法引入语言测试,对试题难度、区分度、整卷信度等进行定量分析。,语言测试成为一门既有坚实理论基础又有相对科学的测量统计方法的学科。,对语言测试的效度少有关注。,与第一阶段相比,强调了口头语言;在教学中,把听说摆在读写之前,在测试中给听说技能一定的比重;但忽略了语言情景;为了考查结构,试题有明显的人工捏造的痕迹。,第三阶段 心理语言学-社会语言学语言测试或后现代语言测试阶段(The Psycholinguistic-sociolinguistic Testing或Post-modern Testing Phase),Chomsky(1965):语言能力(linguistic competence)和语言行为(linguistic performance),Hymes(1972):交际能(communicative competence);使用语言不但要能够按照语法规则产出形式合格的句子,而且还应具有在不同语境中使用这些句子的能力,即语言使用涉及社会文化因素。,语言能力假说的演变(一),J.Oller(1979):单一语言能力假说(Unitary Competence Hypothesis,UCH)。认为语言能力是一个整体,语言测试可以通过综合性的完形填空和听写来衡量语言能力,因为这两种形式的测试包含全部或几乎全部的语言能力;针对分点式测试,提出综合式测试(integrative approach),主张通过一次测试全面评价被试者总体语言水平,被试者须综合运用各种语言知识或技能;题型有完形填空、综合改错、听写、口试、作文等。,Canale&Swain(1980):语言四能力 1、语言能力(linguistic competence),含语音、词汇、语法等语言知识;2、社会语言能力(sociolinguistic competence),在不同的社会环境中,理解和表达形式和意义皆恰当的语言能力。3、交际策略能力(strategic competence),如交际时如何开始、如何维持、如何调整、转换、如何结束等能力。4、语篇能力(discoursal competence),即组织连贯而非独立机组的能力。,语言能力假说的演变(二),L.F.Bachman(1990),Fundamental Consideration in Language Testing,:交际语言能力(communicative language ability,CLA),由语言能力、策略能力、心理生理机制构成。其中,语言能力包括:1、语言组织能力(organizational competence)a.语法能力(grammatical competence)(含词汇、词法、句法、语音学/书写);b.语篇能力(discoursal competence)(含词语联结知识、修辞知识)。2、语言使用能力(utilizing competence)a.功能能力(illocutionary competence)(含达意、操纵、探索、想象功能);b.社会语言能力(sociolinguistic competence)(含方言或变体知识的敏感性、语域知识的敏感性、自然地到语言的敏感性、文化典故和比喻知识)。策略能力是在语言交际时运用各种语言知识的心理能力。心理生理机制是语言交际时作为物质现象如声光等所涉及的心理和神经活动过程。,语言能力假说的演变(三),Weir(1990):详细阐述交际语言测试的理论原则并介绍了交际语言测试的题目类型。(IELTS),交际语言测试的主要特征:,1、重点是意义;,2、语境化(contextualized);,3、语言活动带有可接受的目的性(purposive);,4、有实际意义的语言;,5、使用真实的语言材料(authentic material);,6、文本处理有真实性;,7、反应结果不可预见性(unpredictable);,8、以互动为基础(interaction-based);,9、考生在真实心理状态下展示语言能力;,10、根据实际交际结果判定成绩。,思考,1、结合实际,谈谈你或你们学校所采用的英语测试法符合那个发展阶段?试举例说明之。,2、你认为现阶段应该采用哪种测试法(理论),为什么?,3、你认为交际语言测试最重要的是什么?为什么?,第三节 我国语言测试的发展脉络(一)全国普通高等学校入学考试,历年高考英语题型分值分布,主观题(短文翻译),离散题,综合题,1978年以前,100%,/,/,19781985,16%35%,40%70%,15%-30%,1986 2009,/,10%40%,60%90%,1950年以来我国高考英语发展分析,1、改革开放前:题型单一,几乎全部为主观题(1950和1977年有少量客观题),其形式以翻译、问答式阅读和写作为主,有的年份偶尔出现一些新的题型(介词填空、句型转换、单词变形、完形填空),但不具有连续性。短文翻译虽然给出了一定的情景,但常常是为了考核某些语言点而拼凑出来的,缺乏真实感;阅读段落的题材和体裁不够多样化;写作的内容与被试的生活实际联系不大。,2、19781985:主要采用离散式测试,以分散、孤立地测试语音、词汇、语法等语言成分为特征,一般每题只考核一个语言点,题型包括单词辨音、词汇题(单词拼写、单词释义、词类适当形式转换)、选择填空、介词/副词填空、动词正确形式填空以及句型转换等。命题的核心集中在技能(主要是读写技能)和语言点两个方面;试题的每个部分针对某项技能,而其中的每个小题又针对某个语言点。本阶段题型逐步多样化、标准化,命题逐步走向科学合理,客观题成为一项重要的测试手段。,3、1986年以后:以一个整体来测试不同语言点为特征的综合题分值的比重明显增加,由之前的15%30上升到60%-90,比如听力、完形填空、阅读理解、综合改错、作文等。这些综合题大多以语篇为基本单位,有语境,且关照语言知识和语言技能,能够在一定程度上反映被试在具体的交际情景中使用语言的能力。作文的命题比较灵活,既有控制性的作文(改对话为短文、看图作文等)、情景作文,也有应用文写作、开放性作文。这些作文从被试生活实际出发,把被试学习语言的目标、需要的信息、交际的情景、语料的真实以及使用语言的需要等因素都考虑在内,正确、流利、得体成为了作文的评分标准。这个阶段的高考试题在设计上尽管仍然受到离散点测试的,影响,但已经能够比较灵活地处理听、说、读、写技能和语言知识的问题,并开始反对机械地分离语言技能和划分语言知识,提倡语言的综合运用。不难看出,这个阶段的高考英语测试基本实现了从综合型语言测试阶段向心理语言学一社会语言学时期的过渡,交际测试已经萌生。,4、值得注意的是,较之往年,2002年的高考英语试题有了明显的变动:它完全摒弃了诸如词汇与结构选择填空、句型转换、正误判断与改错等传统题型,减少了翻译题所占的比重,增加了听力能力的测试。这些变动并非偶然,而是我国中学阶段英语教学改革在测试领域的一个具体体现,也是教育部全日制义务教育、普通高级中学英语课程标准颁布后高考英语测试的一次变革。,小结:总之,我国高考英语测试的实践基本体现了语言测试理论发展的轨迹,但由于信息不够通畅、测试理论研究起步较晚等原因,无论是在命题的科学性还是系统性方面,我国的高考英语测试都滞后于国际水平。从高考的角度来看,我国目前已经进入了测试发展的第三阶段,即心理语言学一社会语言学时期。,第三节 我国语言测试的发展脉络(二)研究生入学考试,历年研考英语题型分值分布,主观题(翻译),离散题,综合题,19801984,35%50%,32%45%,5%20%,19851987,35%,30%45%,20%-35%,1988 2009,10%35%,0%25%,40%90%,1980年以来我国研考英语发展分析,1、1980至1984年,以篇章翻译为代表的主观题比重居高,尤其是1980、1981年,分值高达50%。此外,离散题也占了相当的比重(32%45%),分值较高;综合题虽然有所涉及,但权重不大(5%20%),且更侧重考核被试的语言知识,而并非语言技能。主观翻译题大多为测试某些语言知识而改编或编写的句段,语境不够自然真实,语言也不够得体;离散题多局限于语言形式结构(词汇与结构选择填空、句型转换、词型转换等),缺乏使用语言的交际环境;综合题的主要形式是完形填空、错误改正等题项,阅读理解、听力理解和写作等题目则在试卷中完全缺失。由此可见,这个阶段的研究生入学英语测试重视语言知识,但在形式上已经开始借鉴离散测试题型,正处于以主观题为主的前科学时期向心理测量一结构主义时期过渡的阶段。,2、1985-1987年,研究生入学英语试题出现了明显的调整。首先,翻译题的比重下降,离散题的比例走高(占整个比值的45%),综合题的分量逐渐增加。其次,靠死记硬背的题项(如词汇与结构选择填空、句型转换等)在分值和比重上或有所减少或被摒弃,注重考查反应速度和操作技能的阅读理解题开始被引入,再次,从分值分配上来看,命题已经从语言知识和技能两个方面入手,并注意在一定程度上反应出被试的学习层次。这些特点均表明,这个阶段的研究生入学测试已进入心理测量一结构主义时期。,3、从1988年起,将语言看成一个整体、将语言知识与技能综合起来考核的综合测试题占据了研究生入学测试的主宰地位,其比重由先前的35%升至90。1991、2000、2002年词形变化、错误判断与改错、词汇与结构选择填空等题型相继被取消,代之为1991、2002年分别增加的写作和听力板块,研究生入学试题在题型和模块方面进入了一个相对较为稳定的阶段。这个阶,段的主要模块为语言应用、听力理解、阅读理解和写作,题型包括完形填空、多项选择、短文和图表填空、回答问题、翻译、作文等。值得注意的是,每个模块均以语篇为单位,选取的材料在题材(人物传记社会、文化、日常知识、科普常识等)和体裁(叙述文、说明文、议论文、应用文等)上纷繁多样,相关的题目在设计上也呈多样化(例如,阅读理解不再是单一的多项选择题目,而包括了多项选择、复合填空、正误判断、是非选择、表格填充、问题简答等),且灵活处理了听、读、写、译等技能之间以及它们与语言点之间的关系,做到了接收型技能和产出型技能紧密联系,语言技能和语言知识有机结合。总之,这个阶段的试题在测试任务方面考虑到了被试的真实生活情景,设计了适度的信息量和信息差,关注到了语言接收和语言产出技能的平衡,交际测试的基本特征得到体现。,小结:总体看来,我国研究生入学考试同高考测试一样,虽落后于语言测试理论但严格遵循其发展轨迹,目前暂处于第三发展阶段,即心理语言学一社会语言学时期。,第三节 我国语言测试的发展脉络(二)大学英语四、六级考试,大学英语四级考试题型和计分,序号,题号,测试题型,计分,I,120,听力理解,20,II,2140,阅读理解,40,III,4170,词汇与结构,15,IV,7190,完形填空,10,V,91,短文写作,15,第三节 我国语言测试的发展脉络(二)大学英语四、六级考试,大学英语六级考试题型和计分,序号,题号,测试题型,计分,I,120,听力理解,20,II,2140,阅读理解,40,III,4170,词汇与结构,15,IV,7190,综合改错,10,V,91,短文写作,15,1987年以来我国大学英语四、六级分析,1、试题内容规范,题型相对稳定、自施考以来,四、六级试卷主要由听力、阅读、写作、词汇与语法结构、完形填空综合改错等板块构成,题型包括多项选择、简短回答、复合填空、句子翻译等。尽管从1996年开始,四级增加了诸如英译汉、简短回答、复合听写等新题型,但这些新题型只是与原题型中的某项题型轮流互换。,2、起点高。四、六级考试施考之时,正值我国改革开放成就斐然、外语学习蔚然成风之际。国外先进的语言教学理念被推介到国内,语言测试理论与研究倍受关注,这些都决定着四、六级考试从一开始就具备了较高的起点。除了词汇与结构部分之外,四、六级试题选取的都是语篇层次的语言材料,试卷构成以综合题为主体。毋庸置疑,由语言测试理论支撑的四、六级考试旨在考核综合语言能力,交际化趋势明显,而话题式口语考试的引人则是其交际化的另外一个佐证。,3、语言技能之间的关系处理得更为合理。四、六级试题在形式上呈板块,但测试任务却体现了设计者的匠心。听与写、读与写、读与译等测试任务折射出的不仅仅是语言技能之间的互赖关系,同时也彰显了语言作为交际工具的一个属性,即接收型技能和产出型技能的平衡。由此我们可以看出,全国四、六级考试的发展印证了80年代中后期我国英语测试所处的阶段。,小结:我国大学英语四、六级考试分别从1987、1989年开始正式施考,现已成为一项大规模标准化考试。与高考、研究生入学考试相比,大学英语四、六级考试起步晚,但起点高、作为大规模标准化考试,大学英语四、六级考试无论在设计上还是在操作流程上都比较规范:它们以大学英语教学大纲和大学英语四、六级考试大纲为依据,设立有专门的考试委员会,建立了相当稳定的命题员网络,其信度、效度都经过了严格的检验。,我国英语测试的发展趋势,通过对我国大规模英语考试题型的统计分析,可以发现我国语言测试的实践基本遵循了理论发展的脉络:,20世纪70年代之前英语测试处于前科学时期;20世纪七八十年代,处于心理测量一结构主义时期;20世纪80年代中后期至今,处于测试理论发展的第三阶段,即心理语言学一社会语言学时期。,目前,我国英语测试越来越呈,交际化,趋势,主要体现在:,1、在作文方面,最近几年各类考试的作文题大体以应用文为主,涉及书信、电子邮件、导游词、投诉、出国申请等与现实社会息息相关的题目。可见,现在的作文命题反套路、反模块,要求考生具有用书面语表达思想的能力,既考查被试的语言基本功,更考查他们在实际生活中运用语言的能力。,2、在听力方面加大了分数的比重,采用了增加原声、背景音、多人交谈等语言材料,更注重采用“真实语言材料”。,3、在阅读方面增加了快速阅读内容,使阅读任务更加细化。,4、四、六级口语考试逐步推广,研究生入学考试也把口语测试列入了复试范围,旨在考核被试的实际语言运用能力。,结束语及思考,教学与测试是相辅相成的。在我国英语教学改革的大环境下,教育部制订的全日制义务教育、普通高级中学英语课程标准)(2001)和大学英语课程教学要求(2004)不约而同地把培养学生的综合应用语言能力作为教学目标,而作为检验教学效果的测试必然要紧跟教学的发展。由此可见,交际型语言测试必将成为我国未来英语测试的主流。,思考:,1、结合本人了解或参加过的考试,谈谈你校考试的现状及建议。,2、依据本人的教学,结合测试的发展趋势,展望未来考试的前景。,第四节 英语测试的基本原则,1、效度,2、信度,3、真实性,4、互动性,5、冲击力,6、可行性,1、语言测试的效度(validity),测试的效度是一次考试对其所要测试的语言能力能够测到的程度。效度侧重的是测试的内容,它检验测试的目的是否一致。测试有各种不同的效度,总的来说可分为四种类型。,(1)卷面效度。也称为表面效度,是指考试在表面上使考生及其他有关人员凭直觉感到的有效程度。Ingrem认为卷面效度指的是“考试的表面信誉或公众对考试的接受程度”。如果测试项目表面上适合于侧试者、受试者和教师,它就可被看作具有卷面效度。如果一份测试具有好的卷面效度,学习者的学习意愿就能得到激发和保持因为研究表明大多数受试者在测试表现出适合于他们的时候会加倍努力;相反,如果受试者看到某一测试与测量其某一语言能力无关或者高出其语言能力水平,考生就容易丧失参与的积极性。,(2)内容效度。指考试内容对预测内容的代表性的程度。内容效度评价一个考试的出发点是看其内容是否与考试目的一致,在内容正确的基础上,再看其内容是否具有代表性。内容的代表性与内容样本量的充足性-考试的题量、主题覆盖面等。如果一项词汇测试只检测考生介词的能力,内容效度就很低;再如,一项听力侧试采用口语考试的形式进行,这类考试肯定缺乏内容效度。,(3)构卷效度。指测试题目反映出测试构建于某个理论本质方面的程度。如果一项测试能够反映出与语言学习理论一致的一些具体特征,那它就有构卷效度。它要求测试的语言理论基础要与最终的语言行为相符。它不仅要揭示现在的语言行为,而且应能揭示最终的语言行为。测试的设计者应根据语言学习者将来会如何使用语言的预见来设计试题。一种试题的编制要以某种语言行为理论和语言学习理论作为依据。如果以功能语法为基础,认为语言习惯主要是通过语言环境和实际运用而获得的,那么强调句型操练和语法分析的测试就失去了编制效度。,(4)经验效度(尺度关联效度)。指一项测试的结果如果与一些外部测量标准相关联,这份侧试就可以说具有经验效度。经验效度是通过把测试与一个或更多的标准测量相比较而得出的,这种比较可以通过两种方式得到:共时效度和预测效度。,共时效度,即同时从外部而不是从内部通过某些方法论证考试的效度。它是通过定性与定量分析两个方式来进行的。如,对共时效度的定量分析,是通过用一个得到公认的外部考试的方式与被评估的考试作比较,看求得的相关系数是否理想,如两者之间的相关系数达到理想的数值,那么就表示被评估的考试与外部的考试具有同等效度。当测试结果在同一时期与其它测试结果相一致时,它可被看作具有共时效度。,预测效度,即考试成绩要能够预测考生以后的学习状况。它的测量方法是将两组数据进行相关比较,论证它们之间的关系。当测试结果与以后的其它测试结果或以后取得的其它行为标准相一致时,那么这个测试就可以说具有预测效度。,2、语言测试的信度(reliability),语言测试的信度是指考试测量学生语言能力一致性、可靠性的程度。它是任何一个好的语言测试必备的特征,也是考试结果是否可靠的关键指标。一个测试的信度主要看该测试所要测量的东西是否达到前后一致的程度即考试结果不受考试施考时间、监考人员、场地等外部因素的影响。如果对同一个受试者连续进行两次测试或试卷被不同的人批改而得到的结果相同或相似,这样的测试就被看作是具有较高的信度。可靠性也可称为一致性(,consistency,),这种可靠性或一致性是任何一种考试都不可缺少的一个重要特征,否则考试成绩将无法真实准确地反映出考生的被测试语言能力和水平。而且用不可靠的成绩来决定,就会不可避免地造成一些失误甚至是不可弥补的损失。,影响信度的因素有:,(1)试卷编制。信度侧重的是测试内容的覆盖面是否大,是否具有代表性,项目是否均匀。采样越多,测试的信度越高。郝利群认为,一套试卷无论是常模参照考试(,norm-referenced,),还是标准参照考试(,criterion-referenced,),长的要比短的更具可靠性。测试必须包含各种类型内容的试题。一种测试必须涵盖本专业领域内尽可能多的内容,而且试题必须有一定的难度。测试提出的任务必须具有标准性。在试题库中任意挑出的试题在难度、类型、形式上都必须基本一致。事实上,只要试卷中所使用的试题具有测试某种能力的代表性,这种试题越多,试卷对某种能力的反映就越充分和越可靠。因此越是重要的考试,题量越要充分。当然,题量也不能过大,否则考生的疲劳和厌倦就会影响考试的信度。,(2)测试的执行。主要是涉及考试环境、试卷安排、时间分配、题意说明、考试方式、答题方式、评分标准等是否所有的考生对试题的要求都很清楚。是否相同的测试是在不同的受试对象之间,不同的条件下及不同的时间内进行的,这是决定信度的一个重要因素。如在一次听力测试中,一组考生所听到的录音效果好另一组考生听到的录音效果差,那么,这次听力测试就无信度可言。试题说明在考生的答题中起着举足轻重的作用。如果考生对题目要求的理解程度和他们对所要完成任务的清楚程度很高他们就会积极地投人考试中去。相反,含糊不清的试题说明会直接影响考生的答题,降低测试结果的信度。所以试题说明一定要做到简洁、准确、明了,试题说明所使用的语言应简单清楚,避免考生不熟悉的术语出现。,(3)个人因素。受试者的个体因素如动机、情感、心理状况、身体条件会对测试信度有很大的影响。这些因素包括考生考试前和考试中的心理或生理方面的波动或变化,如疾病、疲劳、缺乏考试动力、情绪波动等。这些因素会影响考生的正常发挥,从而降低测试结果的可靠性。尽管这些因素是不可预测的、也常常因一些意外而无法控制,但教师们也要有所作为,要设法将这些因素的影响降到最低点。同时阅卷员的评分也是影响信度的一个重要因素。客观试题的评分基本没有问题,信度较高,关键是对主观试题评分标准的把握。为减少评阅的误差首先要制定详细的评分标准,而且所有的阅卷人应统一进行培训,让大家选用一些例卷共同进行打分练习和讨论,从而给出相近的分数,使语言测试充分体现公平公正。,常通过以下方法来测定考试信度:,(1)重复测试法,即通过对同一组学生重复使用同一份试卷来确定试卷的信度。,(2)平行卷测试法,即通过A、B卷的形式来分析试卷的信度。,(3)对半分析法,也叫内部一致性法(internal consistency)把一份试卷看作为两个相对独立且相应的部分,通过对这两部分分数的比较以获得整份试卷的信度。,3、语言测试的真实性,Bachman&Palmer(1996):真实性指某一语言测试任务与实际语言运用任务在特征方面的对应程度。任务特征包括观察类(形式)特征(即方式、内容、情景等)和非观察类(性质)特征(即语言运用性质、语言能力等)。其对应程度可指形式上的也可指性质上的对应。,当今语言测试界在考试真实性方面的两大派别:,1、现实生活法(real-life approach):通过设计能复制具体语言使用环境的考试来达到真实性。主要有3个侧重点:1)考试的表面效度;2)考试的预测效度;3)考试的内容效度。此派在口语测试领域里独领风骚。,2、交际/能力法(interactional/ability approach):强调交际语言运用过程中的显著特征,如“语言使用者、情景与语篇之间的相互作用”,而不是某一个具体的语言运用行为。其主要侧重的是语言能力或能力结构,也就会结构效度。,4、语言测试的互动性,互动性(交互性)指在考试所设计的任务中学生的参与程度。试比较两种考试的互动性:,考试1:50道多项选择题,其中25道语法题,25道词汇题。,考试2:口试,采取小组讨论的形式,题目是The Impact of TV Ads on Teenagers。,5、语言测试的冲击力,一般来讲,教学目标决定语言测试目标。因此语言测试目标必须为实现语言教学目标服务。然而,语言教学与语言测试的发展并非总是同步的。语言测试体系一经确定,它就具有一定时限的相对稳定性,对语言教学产生积极或消极的反拨作用。,语言测试目标对语言教学目标的反拨作用极其重要:如果语言测试目标科学、准确、就能够科学有效地检测教学目标并积极地促进教学目标的实现或进一步修正。反之就不能科学检测教学目标,同时阻碍后续教学目标的确定与实现。,从理论上看,教学先于测试。教什么内容就检测什么内容。这是一种理想的教学和测试的关系。然而,在具体的教学与测试实践中往往是要考什么然后才教什么。这种语言测试与语言教学的逻辑倒置,我们可以看作是语言测试内容对语言教学内容的反拨作用。,语言测试方法对语言教学方法也会产生重要的反拨作用。比如科学的考卷应采取多种题型,主客观试题相结合的方法。科学的语言测试对语言教学的各方面都应起着正面的引导作用。,归纳起来,考试的冲击力作用直接影响两个方面,即教和学。教指的是教师或学校,包括教学方法、课程设置、教学内容、课程评估等;学指的是学生,包括学习方法、学习动机等。,6、语言测试的可行性,可行性即可操作性,与前面5点相比,可行性是指制约施考过程的因素,而前面5点主要指考试质量或结果的使用。,制约施考过程的因素有:资源、人力、时间。资源因素指考试场地、设备、阅卷设施等;人力因素指考官、监考人员、阅卷人员等;时间因素是实际考试可用时间。,这要求试题设计者和考务人员做到以下几点:,(1)试题的题目要求要清楚易懂,试题要设计得一目了,然无深奥难懂的术语,最好在试题要求下给出相应例子,试题要求无需监考人员作口头解释。,(2)试卷必须整齐、干净,尽量避免出现拼写、打印等技术错误。,(3)考试辅助设备必须正常。如无线听力系统、录音机、计算机工作必须正常稳定,考场座位必须具有舒适度,远离外界干扰。,(4)答题纸的使用。答题纸大小和编排要与相应的题量相一致,满足考生准确地书写答案。同时它也必须能使教师清楚地看清答卷,以增加阅卷的准确性和阅卷速度。,结束语及思考,语言测试应符合国际形势与新时代经济发展的需要,还应与专业设置、课程建设、教学过程与方法等紧密结合,应借鉴国际通行的评价体系,创新课堂教学模式,重视灵活教学,设计以学生为主体、学习和创造为核心的教学方法,大力提倡和运用各种现代手段,以科学灵活的考试培养学生的自主意识、创新精神和创造能力。然而在语言测试的具体实施过程中,由于受使用目的的影响,往往会出现一些偏差比如语言测试纯粹为鉴别语言水平等级为目的、纯粹作为高一级学校录取新生或用人单位录用人才的尺度等。这样,在理论上加剧了语言测试的信度和效度之间的矛盾,狭隘了语言测试的内涵;在实践中,受试者或学生常常感到教学、学习同测试脱节,提高语言技能同测试脱节。笔者在个人研究的基础上,对语言测试设计的原则与实践作一个理论上的探讨,以便更清楚地认识语言测试本质,避免被语言测试的一些意义模糊了概念,更有效地把语言测试同教学、素质教育结合起来,最大限度地克服测试的负面反拨效应。,思考:,1、就测试效度和信度的关系,有人说测试效度是首要的,也有人说测试信度是首要的。试分析二种说法的立足点并谈谈你个人如何看待二者的关系。,2、举一个身边的例子来说明考试对教学的冲击力。,3、从表面效度、真实性和交互性3个角度讨论下面的考试题目或任务。,例1 根据中文提示,将对话中缺少的部分写在线上。全句必须符合英语表达习惯。(提示:澳大利亚商人Williams先生在外贸博览会上看到某厂生产的台灯,有意购买。他找到金厂长,谈了他的意向,并请金厂长详细介绍产品。金厂长告诉他,工厂年产20万台灯,一半以上销往亚洲国家。Williams先生询问了价格。金厂长告诉他每台是15美元。Williams先生表示这价格可以接受,接着问他是否只有一种型号。金厂长说,有好几种型号,如果Williams先生感兴趣,可以带他去厂里看看。),Mr.Williams:Mr.Jin,I have seen your table lamps at the Foreign Trade Fair.I wish to order some for the Australian market._?,Mr.Jin:Id be glad to.As a matter of fact,we have been thinking of selling our lamps to Australia a well,_.About half of them are sold to countries in Asia.,Mr.Williams:_?,Mr.Jin:15 US dollars each.,Mr.Williams:_.And is this the only model you produce?,Mr.Jin:No.We have several others.If you are interested,_.,Mr.Williams:That would be fine.,例2 辨认错误,在下列各句的划线部分A、B、C、D中各有一个错误,指出这一错误。,1.Three weeks ago,I went to,my uncle,;my aunt told me that he,had left,for,A B C,Singapore,on,a lecture.,D,2.She looks,very,young,but is,twice,as older as,my,twenty-year-old,sister.,A B C D,3.,There,is a lot of,noise,in big cities,but,it,isnt,much,in the countryside.,A B C D,4.Though my neighbor has,the great number of,science,books,he,never,A B C,reads,any,of them.,D,例3,某公司要招聘英语打字员,应聘考试中的一项内容是在规定的时间里打出,一定字数的文章。,第五节 英语测试的真实性问题,Bachman:真实地反映语言测试中语言使用的本质。,Wood:语言测试中的两个主要问题,信度和效度,可以归结为一个更为重要的问题,即真实与不真实。,Palmer:真实性是语言测试中的一个重要特征,是语言测试开发者在设计测试时需要认真考虑的问题。,Douglas:真实性是区分特定目标语言测试和一般目标语言测试的两个特征之一(另一个特征是语言知识和特定目标内容知识的互动)。,一、对于真实性的早期认识,20世纪60年代中期。一些学者,比如Close和Broughton,认为,语言学习者所接触的文本并不能代表他们所学的目标语。这个时期,研究者关注测试文本,认为真实性是指测试的文本应该是从真实情景中提取出来而未被改动的原始文本,而不是为了教学目的而设置或改编的文本。,问题:1、把真实性等同于未作任何改写或简化处理的文本,产生了“真实-非真实”的二分法观点。2、每个文本都有自己特定的语境,原封不动地提取源文本用于测试,虽保证了源文本的完整性,但会使测试失去真实性。,困境:因为它是从真实世界中提取出来的,而认为它是真实的,还是因为它脱离了源语境被用于测试,而认为它是非真实的。,70年代末期,Widdowson提出两个概念即“,翔实性,”(genuineness)和“,真实性,”(authenticity)。翔实性是语篇自身的特征,是个绝对的概念。真实性是语篇与读者之间关系的特征,与恰当的做答有关。因此,翔实的文本只有在经过真实化(authentication)过程之后,才算具有真实性,这个过程可能只有通过本族语者才能实现。,二 真实性的概念化(Conceptualization of authenticity),Bachman:真实生活观(real-life approach)和交互能力观(interactional-ability approach)。,(一)真实生活观,概念:语言水平是在非测试环境中完成语言任务的能力,而真实性就是测试任务重现真实生活语言使用任务的程度。这种观点为把语言测试分为“直接测试”和“间接测试”奠定了基础。,原则:1、把语言水平看做是语用能力;2、把真实生活行为作为真实性的标准;3、表面效度上给人一种感性的真实;预测效度上预测考生在非测试情景中语言使用行为;内容相关性和覆盖性上测试的内容和过程与真实生活中的语言使用相对应。,20世纪80年代,真实生活观在语言测试中,尤其是外语口语测试中,占据着主导地位。,缺点:1、停留在输入层面,缺乏对考生处理这些输入的过程关注。在测试中真正关心的不是考生在某一特定时间、特定场合完成特定测试任务的行为,而是这一行为在多大程度上反映了考生的语言能力。2、真实生活或非测试情景中的任务和行为难以被绝对而完全地复制到测试情景中。,Bachman:这种观点存在两个问题:一是没有把语言能力和语言行为区分开。二是真实生活观未能给效度提供一个充分的基础,即表面效度、预测效度、内容相关性和覆盖性并不能完全说明某项测试效度的高低。,(二)交互能力观,概念:真实性存在于考生、考试任务与考试情景之间的相互作用中。互动程度愈强,试题的真实性程度就越高。交互能力观注重的是结构效度。,Widdowson:不应当把真实性当作语言运用实例本身所具备的特征,而应该把它当作由语言使用者反馈所产生的、附加在语言运用实例上的特征。也就是说,语言素材是否有真实性不是由其来源或特点所决定的,而是要看它能否在作者与读者之间产生共鸣和交流。真实性是篇章和读者之间的关系特征,并与读者的恰当反应有关。因此,描述真实性时必须注重交际语言使用的关键特征,而不是去获取整个语言使用情景。而且这一理论描述不仅要包括语境特征还要包括语言使用者的交际语言能力。,特点:1、强调交际语言使用的区别性特征,即语言使用者、语境、语篇之间的交互作用。2、强调除了要考虑语境特征,还要考虑考生的交际语言能力。(3)强调真实性语言测试的开发要基于一个包括考生语言能力和测试情景特征的框架。,三 真实性的框架化(Framing of authenticity),Bachman的两种真实性:情景真实性(situational authenticity)和交际真实性(interactional authenticity)。前者指测试任务特征与目标语使用任务特征的对应,后者指考生与测试任务之间的互动。,Bachman和Palmer把真实性定义为“特定测试任务的特征与目标语使用任务特征的一致性程度。”他们还提出了一个任务特征框架,这个框架包括测试安排(test setting)、测试说明(test rubrics)、输入(input)、期待做答(expected response)以及输入和期待做答的关系(relationship between input and respons
展开阅读全文