简明英语测试教程省公共课一等奖全国赛课获奖课件.pptx

资源描述

文档仅供参考，如有不当之处，请联系改正。一、英语测试概述：过去、现在与未来语言测试是一门古老而又年轻学科，尽管当代语言测试历史不到1，语言测试历史渊源却能够追溯到很久以前（Spolsky1995）。语言测试是应用语言学一个主要分支,它包括教学法、二语习得理论、语用学、心理语言学、认知心理学、教育测量学、计算机科学等各种学科。语言测试是伴伴随语言教学出现，并伴随语言教学发展而发展，不一样时期，人们语言观不一样，采取语言测试方法也不一样。世界语言测试理论经历了四个发展阶段，反应了三个语言测试理论模式。伴随语言测试理论发展，语言测试在实际应用和理论研究方面也出现了许多新改变，已引发越来越多学者们注意。第1页文档仅供参考，如有不当之处，请联系改正。语言测试主要用于语言教学、语言研究和教学研究、选拔人才三个方面，其中最为普遍是用于语言教学。语言测试与语言教学之间存在着一种相互依赖关系。语言测试是衡量语言教学成效和提高语言教学质量重要伎俩，是语言教学过程中重要组成部分。语言测试目是提供一种科学衡量工具，一方面对学生语言能力进行客观、准确、公正评价，其次检测教学效果，反映教学中长处与短处，为提高教学质量服务。由此可见,语言测试是语言教学过程中不可欠缺重要环节，语言教学离不开语言测试。第2页文档仅供参考，如有不当之处，请联系改正。语言测试与语言教学是同时存在，息息相关，紧密联络而且相互作用。然而，语言教学与语言测试发展并非总是同时。一个语言测试体系一经确定，在一定时期以内就含有相对稳定性，会对语言教学产生主动或消极反拨作用。第3页文档仅供参考，如有不当之处，请联系改正。语言教学与测试关系语言教学与测试关系语言测试是伴伴随语言教学出现，语言教学与语言测试亲密相关，这是毋庸质疑。但对于语言教学与测试之间关系或隶属地位人们却有各自不一样看法，基本上能够归纳为两种：主仆关系与搭档关系。持有主仆关系观点人认为持有这种观点人认为语言测试是语言教学一部分，并服务于语言教学。代表人物为英国语言测试教授AlanDavies。持另一个主仆关系观点人没有代表人物，却在实际中广为应用，即“考试是教学指挥棒”。持搭档关系观点代表人物是世界著名语言测试教授ArthurHughes，他认为教学与测试是“搭档关系”(partnership)测试与教学既相互促进又彼此制约。第4页文档仅供参考，如有不当之处，请联系改正。1.主仆关系主仆关系语言教学是第一性，语言测试为语言教学服务考试是左右教学指挥棒2.搭档关系搭档关系持这一个看法人认为，测试与教学既相互促进又彼此制约，教学从目标、内容、方法与伎俩等方面制约着测试，而测试又在目标、内容和方法上对教学起着主要反拨作用。第5页文档仅供参考，如有不当之处，请联系改正。世界著名语言测试教授ArthurHughes认为，教学与测试是“搭档关系”(partnership)(Hughes1989)。他说，“Theproperrelationshipbetweenteachingandtestingissurelythatofpartnership.Wecannotexpecttestingonlytofollowteaching.Whatweshoulddemandofit,however,isthatitshouldbesupportiveofgoodteachingand,wherenecessary,exertacorrectiveinfluenceonbadteaching.”(ArthurHughes)下面图示反应了教学与测试相互关系。第6页文档仅供参考，如有不当之处，请联系改正。第7页文档仅供参考，如有不当之处，请联系改正。考试是外语教学过程中一个主要组成部分，外语考试与外语教学之间存在着相辅相成，互为影响关系。在教学中教学目标起着决定性作用，它决定了教什么(教学内容)和怎么教(教学方法)；教学目标是否到达需要考试作为它评定伎俩，所以考试测试目标必须以教学目标为依据，这么才能起到评定教学目标作用。在教学考试中，教学内容决定了考试内容(考什么)，而教学方法决定了考评方法(怎么考)，所以从理论上说，考试只是教学一个组成部分，它考评内容与方法由教学目标、教学内容和教学方法所决定。考试应在教学目标指导下进行，并不是说考试可有可无。在教学实践中，我们发觉考试占有很主要地位。有时甚至影响到整个教学过程，使教学围绕考试进行，其经典例子就是应试教育。第8页文档仅供参考，如有不当之处，请联系改正。这是因为考试除了有受教学其它步骤和原因影响一面外，它反过来对教学其它步骤又有反作用一面，亦即所谓反拨作用(backwash)。因为外语测试结果不但能判断外语教学目标设置正确性、可行性及实现程度，而且也能反馈、控制外语教学活动。过分强调考试反拨作用，尤其是强调考试评定和选拔功效，必定造成考试在教学过程中错位。教师、学生、家长、教育部门对考试作用过分强化所形成协力就会造成应试教育，使考试成为教学关键和教学目标，这应该加以防止。第9页文档仅供参考，如有不当之处，请联系改正。邹申（）则认为，语教学与语言测试之间存在一个相互依赖关系，教学（或课程设置）有效性能够经过测试加以检验，而我们从测试中得到信息反馈也有利于改进和提升教学质量，或完善课程设置。第10页文档仅供参考，如有不当之处，请联系改正。四种英语语言测试法1.写作-翻译法（theessay-translationapproach).这种方法主要有以下特征：1.对测试技能或专长没有特殊要求，主要是依据教师主观判断力；2.试卷通常包含翻译、写作和语法分析等项目；3.试卷内容带有浓厚文学或文化色彩；4.试卷普通采取书面回答形式，试卷需要人工评阅。因为写作-翻译法不强调测试科学性或理论基础，故有时被一些学者称为语言测试前学科阶段。（科举考试，博士，硕士硕士考试）第11页文档仅供参考，如有不当之处，请联系改正。2.结构主义/心理测量法（thestructuralist-psychometricapproach).这种测试法以结构主义语言学为其理论基础，强调不一样语言成份能够分别测试，比如语音、语法和词汇都能够脱离上下文进行单独测试。另外，听、说、读、写等项语言技能也能够分开测试，因为这个测试法主要特征是一道题能够单独测试一个语言成份或技能。这种方法另一大特点是采纳了心理测量学一些方法，强调语言测量可靠性和客观性。结构主义/心理测量法在语言测试中经典表现形式是多项选择题，一个既能到达一题测试一成份要求，同时又适合于进行考后统计分析题型。第12页文档仅供参考，如有不当之处，请联系改正。3.综正当（theintegrativeapproach).综正当有以下特点：1.语言测试要在一定上下文（context)中进行；2.不在测试中刻意追求区分各单项语言成份、技能或能力，而是强调两项或两项以上综合评定。较能表达综正当考试题型有完形填空、听写、翻译、写作等。以完形填空为例，这类形式能够同时测试学生语法、词汇知识以及阅读了解能力。另外，语法、词汇知识以及阅读了解能力测试在一个特定上下文（即所给完形填空材料）环境中进行。但，上下文环境在综正当中不是真正意义上语用环境，只是起到辅助测试语言知识作用。第13页文档仅供参考，如有不当之处，请联系改正。4.交际法（thecommunicativeapproach)。有学者认为交际法与综正当在某种程度上有相同之处，即二者都强调语言意义而不是语言形式和结构；但同时二者之间又存在根本区分：交际法更重视语言在交际过程中使用。这里牵扯到两个概念：usage和use。Usage主要指语言形式和结构，而use则是相关语言交际功效以及使用。语言利用是语言学习最终目标，语言形式掌握是实现这一目标方法。所以，衡量一个人语言熟练程度最终标准是看此人能否在语言使用环境中有效进行交际。交际法包含usage成份，但更多是评价学生在特定语言使用环境中交际能力（use）。第14页文档仅供参考，如有不当之处，请联系改正。伴随交际教学法在语言教学领域日渐盛行，从20世纪80年代起语言测试界也逐步受到其影响，并出现了一系列意在测试交际能力探索性考试，这类考试大约有以下几个特点：1.考试内设计“信息沟”（informationgap)，要求学生经过各种已馈入信息来获取未知信息。2.考试任务或项目之间存在关联性（taskdependency),即一个项目要基于前一个项目完成基础上，比如学生先听一个电话交谈，然后依据交谈内容写一封信。3.考试强调针对性，依据学生详细需求设计考试内容，比如在专门用途英语（EnglishforSpecificpurpose)考试中，要依据学生详细语言要求，确定测试内容、所需语言交际模式及其相关语言技能。4.侧重更广泛地测试语言能力，包含语言知识、语言功效，语言使用适当性等。第15页文档仅供参考，如有不当之处，请联系改正。5.考试采取定性评定方式（qualitativemodesofassessment),以取代纯粹定量评定方式（quantitativemodesofassessment)或作为其补充。前者属于标准参考性质（criterion-referenced),后者属于常模参考性质（norm-referenced).第16页文档仅供参考，如有不当之处，请联系改正。1.3当代国内外大规模考试一览1.3.1全国英语等级考试（PublicEnglishTestSystem，简称PETS)1.3.2大学英语四六级考试1.3.3英语专业四八级考试1.3.4美国托福考试1.3.5英国雅思索试1.3.6商务英语考试1.3.7人事部翻译资格证书考试1.3.8教育部翻译资格证书考试1.3.9上海市口译资格证书考试第17页文档仅供参考，如有不当之处，请联系改正。纵观上述考试设计宗旨和测试目标，我们能够归纳出以下几个特点：1.全部考试都意在全方面测量考生语言水平，故无一遗漏地测试各主要单项语言能力（听说读写）。2.考试日趋重视对口语能力测试，而且口试与笔试分开时间间隔也越来越短；托福考试在实施了后于1981年推出托福口试；CET考试在开考后于1999年增加CET-SET考试，而在1999年开始正式实施PETS考试，在推出时已包含了口语测试项目。第18页文档仅供参考，如有不当之处，请联系改正。3.考试在测试考生接收性语言技能（receptive）同时，愈加重视评价他们产出性语言技能（productiveskills)，所以在题型选择上绝大多数采取多样化形式，现有多项选择题，又有其它形式，如简答题、填空题、匹配题、翻译题、写作题等。4.考试不但考虑到信度（如分数可靠性），而且愈加重视其效度（是否到达预期测试目标等）。增加口语/写作考试和各种题型有机组合都是为了能够考评学生综合利用英语进行交流能力，以提升考试效度。第19页文档仅供参考，如有不当之处，请联系改正。考试今后发展趋势首先，伴随计算机普及，考试计算机化或无纸化进程将加紧，国外托福考试已在推行考试计算机化（CBT，CAT）。我们国内相关人士也已完成了这方面理论研究；有地方性考试已开始实施外语考试网络化，如上海市高考英语口试已连续几年实施网上口试和网上评分。我们能够预测在很快未来CBT和CAT将成为考试常见形式。第20页文档仅供参考，如有不当之处，请联系改正。第二，在考试方式作用、考试分析伎俩、考生特征以及语言能力性质等方面研究将会继续深入下去。第三，对常规考试以外其它评定方法可行性探讨也会成为研究热点，比如小组测试方式（grouptesting），以学习者为中心测试方式（learner-centeredtesting），自我评定（self-assessment）等。第四，考试后效作用（washbackeffects)，即考试对社会、教育机构以及学生个人影响等，也将成为研究焦点之一。以上方面研究结果无疑将会给考试注入活力，使考试成为一个更完善评定伎俩。第五，考试开发设计将愈加重视以考生为本理念；考生群体特殊要求将引导考试开发；考试社会服务功效将深入凸现。第21页文档仅供参考，如有不当之处，请联系改正。比如，英国剑桥大学地方考试委员会（UCLES）开发剑桥商务英语证书（BusinessEnglishCertificate，简称BEC）考试专门针对商务从业人员群体。该考试从听说、说、读、写4个方面，综合考查考生在商务及普通生活环境下使用英语能力。又如，美国教育考试服务中心（ETS)推出国际交流英语考试托业考试（TestofEnglishforInternationalCommunication，简称TOEIC），其考试设计对象为到国外出差或国际交往频繁非英语母语人士，如跨国企业雇员等。第22页文档仅供参考，如有不当之处，请联系改正。第二章考试功效及其类别2.1测量、考试与评定1测量。什么是测量？Stevens（195）认为，“广义而言，测量（measurement）就是依据法则赋予事物数量。”也就是说，按照一定规则给事物属性指派数字或符号过程就是测量。这是迄今为止公认测量定义。举例来讲，要测量一下桌子高度，我们能够拿尺子来量一量，看看它有多高。尺子是人们依据一定法则制订量具，利用它就能够把事物属性，即桌子高度用数字表示出来，如，0.75米。这种测量属于客观察量，因为它基本上不受观察者主观判断影响。第23页文档仅供参考，如有不当之处，请联系改正。测量这一定义包含三个要素：1)事物及其属性。这是测量对象或目标。上面提到对桌子高度进行测量，属于对物体进行测量，其属性高度，是能够观察到，能够进行客观察量。在外语教学领域，我们感兴趣是学生语言能力，而学生语言能力属于人心理特征，是无法直接测量，不过人心理活动会在人详细活动和行为中表达出来，所以只能经过测量其外显行为或外在表现特征来推论一个学生语言能力高低。第24页文档仅供参考，如有不当之处，请联系改正。2)指派数字或符号。所谓指派数字或符号，就是用数字或符号来代表某一事物或事物某一属性量。如张三在此次阅读考试中得了87分，李四得了92分，我们说李四比张三多考了5分。数字本身没有意义，只是一个符号。我们用它来代表考生阅读成绩，这时它就变成了量化数，能够对其进行解释和分析。在一定条件下，还能够对数据进行运算从而对事物属性进行推测。第25页文档仅供参考，如有不当之处，请联系改正。3)法则。法则是指测量所依据规则和方法，是测量关键。法则不好或不可靠，得到测量结果就会出偏差，失去测量意义。简单来说，尺子不准，测量结果就无法使人信服。对客观世界物体进行测量时，因为有公认测量法则或尺度，如测量物体高度、重量等；普通不会出现大偏差。而对人一些特征（心理特征）进行测量时，则往往会出现较大偏差。举例来讲，有几个评委对某学生英语口语进行评定。评委A认为一个人口语要好，必须发音准确，而该学生发音好，所以他给打了个5分。评委B认为流利性最能表示一个人口语水平，该同学尽管发音不错，但流利性差一些，所以她给他3分。同一名学生，让不一样评委去打分，成绩出现了偏差。这也很自然，原因是他们没有按照一个评定口语成绩统一法则（rules）去给这名学生打分，结果造成了偏差。这个例子提醒我们，在对人一些心理特征，如口语表示能力、阅读了解能力等等进行测量时，首先要制订一个便于操作，稳定法则或标准。这么得到测量结果才可靠，才含有可比性。第26页文档仅供参考，如有不当之处，请联系改正。2测试测试（test）又称测验。不一样心理学家对此下定义不一样。Anastasi（1982）认为，“测试实质上是对行为样本所做客观标准化测量。”这个定义是人们公认最权威定义，它包含以下三个基本要素：1)行为样本语言测试目标是要测量受试者语言能力。上面提到，语言能力是无形，怎样测量？只能测量它有形表现，这里所说有形表现，是指语言表现，如说出来话，写出来句子，对测试题目所做各种反应等等、这些行为，都是无形语言能力有形表现，专心理学术语叫“表征”（manifestation）。第27页文档仅供参考，如有不当之处，请联系改正。所谓行为样本，是指对语言能力表现行为有效抽样。我们知道，一个人语言能力表现行为会有各种各样形式，测试时不可能也没有必要把它全部表现行为都测到，只能选取一部分有代表性抽样进行测量，然后据此对受试者语言能力作出推测。2)客观测量。所谓客观测量是指测量标准是否符合实际。对于一项测试客观性程度能够从这么几个方面去评价：测试题目标难易度和区分度怎样；测试结果可靠性程度怎样？测试结果有效性怎样？这几项指标是衡量一项测试质量主要指标。3)标准化测量标准化测量是指在测试题目标编制、测试实施、记分以及对分数解释等方面有一套严密系统程序。只有这么，测试才有统一标准，对不一样人测量结果才有可比性。凡是不标准化测量，都没有可比性。第28页文档仅供参考，如有不当之处，请联系改正。3评价Weiss（1972）认为，“评价（evaluation）是指为作出某种决策而收集资料，并对资料进行分析，作出解释系统过程。”与测量、测试相比，评价含义更广、综合性更强。Bachman（1990）指出，决策正确与否，一方面取决与决策者本身能力，其次则取决于收集到信息质量。在其它条件等同情况下，如果收集到信息越可靠，相关性越强，那么，作出正确决策可能性就越大。所以说，评价一个很重要方面就是要获得可靠、相关信息。在谈到评价与测量及测试关系时，Bachman指出，在对个体（学生）作出评价时，我们可以从质量和数量两个方面进行描述，或只描述其中一个方面。所谓质量方面描述是指对学生行为作出定性描述，如某某学生口头表达能力优异，书面表达能力优等；数量方面描述则是指某次测验分数等。第29页文档仅供参考，如有不当之处，请联系改正。测试、测量及评价三者之间关系，使用下面图来表示。第30页文档仅供参考，如有不当之处，请联系改正。从图中能够看出，我们在对某教育目标（或学生行为）作出评价时不一定用到测试或测量（如面积1所表示），这种评价属于质量评价，或叫定性评价，如指出学生在学习方面存在问题。有时在作出评价时只需测量，而无需测试（如面积2所表示），对学生口头表示能力定出级别就属于这种性质评价。假如要检验学生学习进步情况，通常就要对学生实施测试，这又是另一个性质评价，即只经过测试对学生成绩作出评价（如面积3所表示）。许多情况下，测试只是作为一个科研工具或伎俩，而不是用来作出评价（如面积4所表示），在外语教学、第二语言习得研究领域，我们经常拿水平测试作为研究工具。不用测试便可进行测量情况（如面积5所表示）在外语教学研究领域也经常碰到，在研究学生第二语言习得时，假如研究对象为来自不一样国家学生，人们普通按其母语情况编号。总而言之，并非全部测量都是测试，并非全部测试都属于评价，而且并非全部评价活动都包括到测试或测量。第31页文档仅供参考，如有不当之处，请联系改正。2.2考试功效普通说来，考试不一样用途赋予其不一样功效。比如，用来挑选学生考试含有筛选功效。这里主要介绍与教学和科研相关两大功效：教学功效及科研功效。2.2.1教学功效毋庸置疑，考试在教学过程中起到主动、必不可少作用。使用得当考试有利于教学顺利开展，有利于提升教学效果。让我们来比较以下两个教学流程图：第32页文档仅供参考，如有不当之处，请联系改正。图一：入学课程结业第33页文档仅供参考，如有不当之处，请联系改正。图一所显示教学流程图中只包含3个阶段：入学、课程和结业。在学校课程设置中有些课程与图一相同，如学校开设课外兴趣活动课、小区志愿服务等。这类课程主要目标是扩大学生知识面，拓宽学生与社会接触渠道，故课程流程中只有3个部分。不过，假如课程是主要科目（如英语）时，图一流程图就显得过于简单。有以下几个原因：1.主要科目课程普通要进行阶段性评定以确保课程质量，而评定方法之一是考试。第34页文档仅供参考，如有不当之处，请联系改正。2.学生入学后假如随即分班学习，自然班中水平很有可能参差不齐。这实际上不利于教师因人施教，也不利于提升教学效率。假如在分班学习前进行摸底考试，教师就能了解学生水平，并以此为依据制订出有效教学计划。3.如学生结业时没有检验方法（如结业考试），那么学生不清楚自己学习进展，教师也无法了解教学效果。第35页文档仅供参考，如有不当之处，请联系改正。图2入学课程结业考试考试第36页文档仅供参考，如有不当之处，请联系改正。图2是在图1基础上扩展流程图，考试作为教学一部分被包含在其中。这么，课程开始前考试能够帮助教师调整现有教学计划，或制订适合当前学生水平教学计划，以到达最大程度地提升教学效果目标。课程结束时考试则能够使教师了解实际教学效果。从中我们能够得出这么一个结论：考试在教学过程中有其必不可少作用。以上主要从教师角度谈了考试教学功效。从广义上讲，教师是考试使用者（testusers)一部分。其它相关使用者包含学生本人、家长和教育管理部门。对后者来说，考试教学功效主要表达在考试信息反馈与使用上。对学生而言，考试反馈信息在一定程度上反应学习上进展与存在问题。对于家长，考试反馈信息是他们了解自己儿女学业进展主要路径之一。至于教育管理部门，考试反馈信息能够作为评定教学或课程设置一部分。第37页文档仅供参考，如有不当之处，请联系改正。2.2.2科研功效考试另一大功效表达在科研领域。这里我们主要以语言研究为例。在该领域基础研究或应用研究中，考试作为一个详细测量形式，有其潜在主要价值。比如，语言测试能够用在语言能力性质（thenatureoflanguageproficiency)、语言处理（languageprocessing)、语言习得（languageacquisition)、语言流失（languageattrition/loss)及语言教学（languageteaching）研究中。让我们来看两个例子。第38页文档仅供参考，如有不当之处，请联系改正。例1.一位语言研究者注意到，使用同一母语人之间语言能力参差不齐。由此他想了解，他所执教美国学生母语（英语）与他们所学法语（学习时间为3年）之间有没有关系。为了做调查，他让研究对象参加了两场考试，一个用来测量学生母语能力，后者则检验学生法语水平。例2.在一个阅读课教学方法调查中，研究人员将两种不一样方法做比较。一个方法强调阅读过程中词汇与句法主要性，另一个方法则偏重于阅读技巧训练。为了得知接收不一样方法训练学生阅读能力是否存在区分，并希望获取量化指标，研究人员采取两次统一考试方法，即课程开始前考试和课程结束后考试。第39页文档仅供参考，如有不当之处，请联系改正。例1属于语言习得研究范围，例2属于语言教学研究范围。尽管两例研究目标、内容等不尽相同，它们都不约而同地把考试作为一个获取量化指标方法。例1用考试方法来检验母语与所学外语之间有没有关系假设。例2经过对两组学生在两次考试中成绩分析和比较来证实不一样方法是否会造成阅读能力上区分。从这两个例子中我们能够看出，考试用途不限于教学领域，它在科研方面也应用广泛。考试所提供一些数据能够使我们科研汇报论证过程更含有科学性，结论更含有说服力。第40页文档仅供参考，如有不当之处，请联系改正。2.3考试类别2.3.1依据考试目标分类从考试设计者角度来说，每一个考试，不论是小型还是大规模，都应有一个明确目标，即所设计考试意在获取何种信息。所以，依据考试目标，考试大致能够分成以下几个：1.水平考试（proficiencytests）通惯用来衡量考生语言能力考试属于这类考试。比如，国内高考英语考试、硕士入学英语考试、英语等级考试（PETS）、国外托福考试，等等。第41页文档仅供参考，如有不当之处，请联系改正。水平考试含有以下两大特点。第一，它是选拔性考试（selectiontests)，如前面提到几个考试都含有选拔性质，目标是从众多考生中选拔出佼佼者。第二，它不是与某一详细课程挂钩考试；它设计基础是语言理论，即theory-based;换句话说，水平考试目标不是看考生对某一课程内容了解，掌握程度怎样，而是依据语言理论所设计标准来测试考生现有语言能力。这里值得一提是，水平考试不完全是通用英语考试（Englishforgeneralpurpose);在一些情况下，水平考试内容可能只包括某一详细语言应用领域（Englishforspecificpurpose),比如，上海市中高级口译资格证书考试，剑桥商务英语等级考试。第42页文档仅供参考，如有不当之处，请联系改正。2.成就考试（achievementtests）这类考试目标是检验学生在某一课程中学习进展情况。在教学过程中教师参加设计命题大都是这类考试。依据考试举行时间，成就考试又可详细分为两种：期中考试（midtermtests)和期末考试（finaltests）。期中考试又可称为progresstests。从评定角度看，其中考试性质属于进行性评定（formativeevaluation），因为它主要是对学生课程学习进行中期检验；第43页文档仅供参考，如有不当之处，请联系改正。期末考试属于终止性评定（summativeevaluation),它在课程结束或告一段落时组织实施。成就考试最大特点显示在它与教学纲领关系上。成就考试能够说是基于教学纲领内容上考试，即syllabus-based。成就考试内容必须在教学纲领范围内，这是成就考试与水平考试区分所在。第44页文档仅供参考，如有不当之处，请联系改正。3.分班考试（placementtests）在教学活动中我们经常采取这类考试来确定学生（新生）中不一样语言水平，方便制订或依据实际情况调整教学内容或计划。同时，教师依据考试成绩把学生编入不一样进度班级。分班考试内容既可基于语言理论之上，也能够实际教学纲领中高一级要求为起点。比如，对于刚入学新生，我们能够使用第一学期其中或期末试卷。由此能够说，分班考试内容选择含有灵活性。对于教师来说，更须关注是这类考试难易程度以及考试内容代表性。能否把握好难易度关系到分班考试能否成为有效地测量工具。假如考试难度大大超出学生现有水平，那么，考试就极难起到区分学生水平作用。另外，选择考试内容要能够均衡地考查学生水平，不偏重某首先。第45页文档仅供参考，如有不当之处，请联系改正。4.诊疗考试（diagnosistests）这类考试目标是了解学生在某一阶段学习上优点与短处，其最终目标是给教师提供教学效果或质量方面信息.我们在教学中经常采取课堂小测验（quiz）实际上就是一个诊疗考试。这类考试有以下几个特点。第一，在教学过程中能够随时使用，不受阶段性限制。第二，考试内容普通与所教内容相关，即syllabus-based。第三，考试内容选择能够更有针对性或侧重点。比如，假如想了解学生现阶段对一些动词短语掌握情况，我们能够专门设计一份试卷。第四，试卷长度视情况而定，能够短则一页，长则数页。第46页文档仅供参考，如有不当之处，请联系改正。5.潜能测试潜能测试(apititude tests)语言潜能测试也叫做预测性测试（prognostictests），是经过衡量学生在一门陌生语言中语言表现，以预测其是否有学好这门语言潜力。语言学习潜力受到多方面原因影响，如智商、年纪、动机、记忆力、语言敏感度和语法结构敏感度等。语言潜能测试与之前所学知识无关，很多情况下是学生以前从未接触过语言。一些教授认为在实际操作中不太可能对应试者语言潜能进行全方面测试，所以多数测试只是衡量考生某一部分潜能如听、译领域潜能。词汇测试常被认为是有效潜能测试方法，因其与智商紧密相连而且能反应出应试者对这一领域兴趣。测试语言多采取人工语言，多关注音位区分能力和系统利用语言结构能力，潜能测试题目数量较多，如TheModernLanguageAptitudeTest。第47页文档仅供参考，如有不当之处，请联系改正。2.3.2依据考试分类依据考试方式进行分类，英语语言测试能够分为直接测试(directtests)和间接测试(indirecttests)。1.直接测试(directtests)在这类考试中，学生被要求直接利用被试技能或能力。比如，要了解学生英语语音、语气，我们能够让他们朗诵一篇短文，或者让他们用英语会话。朗诵和会话都直接包括到语音和语气使用。经过这两项活动，教师能够比较直观地了解到学生这方面能力。一样，假如我们想知道学生写作水平怎样，最简单、也是最直接方法就是让学生写一篇作文，因为学生在完成作文过程中必须利用他们英语写作能力。第48页文档仅供参考，如有不当之处，请联系改正。归纳起来，直接考试有以下几个特点。第一，直接考试侧重考试形式真实性（authenticity），及考试内容与现实语境紧密性（closeresemblance）。第二，直接考试便于从总体上考查产出性技能（productiveskills），如口语能力、写作能力、翻译能力等。第三，从命题人员角度出发，直接考试含有比较明确测试目标。通俗点说，也就是命题人员清楚地知道要考什么。第49页文档仅供参考，如有不当之处，请联系改正。当然，这并不意味着直接考试是完美无缺。它本身带有一些问题，如评分标准制订与统一、分数可靠性、分数可解释性等。第50页文档仅供参考，如有不当之处，请联系改正。2.间接考试（indirecttests）在介绍间接考试之前，我们先来看一看能力（ability）与技能（skill）之间区分。简单地说，能力指是一个人在某首先能干什么，即whatheisabletodo。它是一个较为笼统概念。比如，我们常说某某人有较强英语写作能力、英语会话能力。然而，写作能力或会话能力有哪些详细表达和组成原因呢？这就包括到一些详细技能。比如说，一个人写作能力强弱能够表达在文章组织（organization）、用词（vocabulary）、语法（grammar）、连贯性（coherence）等方面。又如，在语法上详细表达可为英语冠词使用、主谓一致等。第51页文档仅供参考，如有不当之处，请联系改正。能够这么说，某一能力是由其相关技能所组成。间接考试是试图测试那些相关技能，以到达评定能力目标。它之所以被称为“间接”，是因为它采取了迂回方法来评定语言能力。间接考试一个经典例子是形式各异改错练习。请看下例：ThepopulationofChinaismuchmoreABClargerthanthatofCanada.D这道多项选择题从表面上看是考比较级使用方法，实际上是一道间接测试写作能力题目，因为比较级正确使用是写作能力中一项详细技能。第52页文档仅供参考，如有不当之处，请联系改正。概括起来，间接考试有这么几个特点。第一，它不强调考试形式上真实性，考试形式无需与实际语用环境相一致。第二，因为不受语用环境限制，所选择测试技能能够更含有代表性和概括性。第三，间接考试可选取多项选择题型，这能够提升考试信度。不过，对于间接考试是否能够真正测试预期能力，人们还是存有疑虑。这主要反应在考试成绩与该考试所测试能力关系上。我们是否能十分必定地说，在测试写作能力间接考试中（如语法试卷）获取高分人，他写作能力也相对突出？尽管经验告诉我们二者之间相关联，我们仍无法百分之百地确定它们之间绝对关系。对于我们教师来说，在选择考试方式时，要切记寸有所长，尺有所短。两种考试方式各有优缺点，正确合理使用或组合才能扬长避短。第53页文档仅供参考，如有不当之处，请联系改正。2.3.3.依据语音测量形式分类就详细测试语言而言，考试可分为分离式考试和综合式考试两类。1.分离式考试（discretepointtests）在这类考试里，一道题目一次只牵涉到一个考点。让我们来看一道分离式考题：Weareallgoingtothegames.Whydontyoucome_?A.upB.acrossC.alongD.to这道题考点是comealong使用方法，除此之外，没有其它考点，比如时态或冠词。这是分离式考题一大特点。第54页文档仅供参考，如有不当之处，请联系改正。分离式考试其它特点以下。第一，每道题提供信息反馈明确、详细，不掺和其它原因。假如学生答对上述这道题，在普通情况下，我们能够得知该学生了解或掌握了这个动词词组含义及使用方法。第二，分离式试题通常采取多项选择题形式。第三，分离式考试因为采取了多项选择题形式，较易到达理想信度。然而，人们经常对该类考试有效性产生怀疑。受结构主义语言学影响，分离式考试把语言学习看成是系统语言习惯获取过程，认为能够经过测试独立语言成份来检验一个人语言能力。因而，分离式考试题目往往是相互间没相关系，同时也不提供上下文情景。所以，分离式考试主要测量学生语言知识，而不是语言能力。第55页文档仅供参考，如有不当之处，请联系改正。2.综合式考试（integrativetests）这类考试要求学生在答题时利用各种语言成份或技能，因为综合式考试项目不只含一个考点。让我们来看几个综合式考试例子。我们在教学中惯用听写练习（dictation）实际上属于综合考试项目。听写练习所要检验不只是拼写（spelling），它还包括词汇知识（vocabulary）、语法知识（grammar）、听力技巧（listening）等。另外一个我们较熟悉例子是完形填空（cloze)。要完成完形填空项目，学生不但要掌握词汇、语法知识，同时还要具备必要阅读技巧。从中我们能够总结出综合考试几个特点。第一它是在一定上下文中考查语言知识或技能。第二，它比较侧重考查语言意义（meaning）而不是语言形式（form）。第三，因为要求同时利用各种技能或知识，综合式考试强调语言熟练度整体性。第56页文档仅供参考，如有不当之处，请联系改正。2.3.4.依据评分方式分类按照试卷评分方式不一样，英语语言测试可分为主观性测试(subjectivetests)和客观性测试(objectivetests)。1.主观性测试主观性测试(subjective tests)试题答案含有开放性或灵活性考试称为主观考试。主观性测试和客观性测试区分在于评分方式不一样。主观性测试需要评分人对答案做出观念性判断，这种判断往往基于评分人经验和所受过相关训练。主观性测试题目主要有简述题、翻译题、作文、口试等。但这些题目在主观性程度上有所不一样，比如自由写作比基于阅读简答题显著含有更高主观性。主观性测试因为需要评分人做出主观性判断，所以在信度上显著稍差。一篇作文，让不一样评分人去评阅，就会出现不一样分数，甚至相差很多分数，这主要是因为评分人观点、知识背景等各不相同。信度是主观性测试一直追求目标。实现主观性测试信度主要要考虑以下几点：对评分人给予足够培训。主观性测试评分人最好要有相关经验，在每次评分前，都要针对此次测试主观性试题进行培训，以熟悉试题内容、评分标准。同时还要进行试评，每轮试评后，应对每一位评分人评分结果进行分析，假如某位评分人分数总是与标准分数相差甚远或不符合标准，则应不再使用该评分人。第57页文档仅供参考，如有不当之处，请联系改正。以雅思为例，依据IELTS评分、分数汇报和解释，对于受考官主观性影响较强写作和口语考试部分，IELTS官方强调：考官均须按照已制订明确标准进行招聘及培训，且须每两年接收检验证实其评分符合标准。在评分初始，就要确定可接收答案，考试结束后应该马上选样。比如作文测试，应该选取不一样层次样本，供评分人进行讨论，当全部评分人意见一致后，才能够进行大规模评阅。对于简述题、翻译题等，考试结束后也应该马上选取一定数量样本，在试评中应注意把握准是否给分语言点，尤其是共性问题，然后进行讨论订立标准，并通知全部评分人引发他们注意。使用多名独立评分人。普通来说，对于主观题应最少有两名独立评分人，两人应在不知道对方所给分数前提下进行各自评分，最终由他人汇总两位评分人分数，进行比较。假如相差太大，则退回重评或交予权威教授进行评判。防止给予应试者过多项选择择权利。在主观性测试中，应防止让考生从一系列题目中选取某一题目回答。比如，在写作中提供多个题目，让学生从中选取一个题目进行写作，这只会干扰测试信度，并有不公平之嫌。第58页文档仅供参考，如有不当之处，请联系改正。2.客观性测试客观性测试(objective tests)试题答案含有要求性或排他性考试，普通称为客观考试。客观性测试是指不需要评分人主观

展开阅读全文