1、(完整word)教育学第十四章知识要点第十四章 教学测量与评价1、教学测量与评价的概念与分类2、标准化测验的含义与优越性、有效测验的基本特征3、教师自编测验、非测验评价技术的种类第一节教学测量与评价的意义和作用一、教学测量与评价的基本概念(一)教学评价的概念1教学评价的含义教学评价是指有系统地收集有关学生学习行为的资料,参照预定的教学目标对其进行价值判断的过程。其目的是对课程、教学方法以及学生培养方案作出决策.2教学评价的目的对课程、教学方法以及学生培养方案作出决策。3教学评价包括的步骤教学评价是一种系统化的持续的过程。包括确定评估目标、搜集有关的资料、描述并分析资料、形成价值判断以及做出决定
2、等步骤。(二)教学测量与测验1.测量的含义测量主要是一种收集资料数据的过程,是根据教育目标和测量的具体目标,建立测量的量度标准,用来表示学生对所测问题的了解的量.测量主要反映学生某学习行为的量值。 2.测验的含义测验是测量一个行为样本的系统程序,即通过观察少数具有代表性的行为或现象来量化描述人的心理特征。 3。教学测量的含义教学测量就是借助于学业测验来对教学成效进行定量考核的一种方法.(三)教学评价与测验测量的关系两者既有区别,又有密切的联系。一方面,测量和测验是对学习结果的客观描述,而教学评价则是对客观结果的主观判断与解释。以了解结果的实际意义.另一方面,教学评价这种主观判断和解释必须以客观
3、描述为基础,测量与测验所得到的结果,只有通过教学评价,才能判断这种客观描述的实际意义。二、教学测量与评价的分类(一)形成性评价和总结性评价 从实施教学评价的时机而言,有形成性评价和总结性评价之分。形成性评价通常在教学过程中实施,一般是由学生完成一些与教学活动密切相关的测验,也可以让学生对自己的学习状况进行自我评估,或者凭教师的平常观察记录或与学生的面谈。总结性评价,或称终结性评价,通常在一门课程或教学活动结束后进行,是对一个完整的教学过程进行测定.常用期末考试的方式进行.(二)常模参照评价和标准参照评价根据教学评价资料的处理方式,有常模参照评价和标准参照评价之分.常模参照评价是指评价时以学生所
4、在团体的平均成绩为参照标准(即所谓常模),根据其在团体中的相对位置(或名次)来报告评价结果,主要用于选拔或编组、编班。标准参照评价,是基于某种特定的标准,来评价学生对与教学密切关联的具体知识和技能的掌握程度。(三)配置性评价和诊断性评价从教学评价的功能看,有配置性评价与诊断性评价之分.配置性评价或称准备性评价,一般在教学开始前进行,摸清学生的现有水平及个别差异,以便安排教学。通过配置性评价,教师可以了解学生对新学习任务的准备状况,确定学生当前的基本能力和起点。诊断性评价,有时指了解学生的学习基础与个体差异;有时指对经常表现学习困难的学生所做的评价。多半是在形成性评价之后实施。(四)正式评价和非
5、正式评价根据教学评价的严谨程度,有正式评价与非正式评价之分。正式评价指学生在相同的情况下接受相同的评估,且采用的评价工具比较客观,非正式评价则是针对个别学生的评价,且评价的资料大多是采用非正式方式收集的。三、教学测量与评价的功能教学测量与评价是检验教学成效,确定学生学习结果和教师教学效果的有效手段,它的根本作用 在于了解学生的学习状况,改进教师教学,从而促进学习效果的提高。(一)为师生调整和改进教学提供充足的反馈信息;1、筛查功能2、分类功能3、诊断功能4、制定教学计划5、指导学生(二)是学校鉴别学生学业成绩、家长了解学生学习情况的主要方式;(三)是教学过程的一个重要组成部分;(四)作为教育评
6、价和决策的依据。第二节教学测量与评价的方法和技术教学评价应包括认知、情感和技能三个方面.对于认知和技能领域的学业成就,最常用的教学评价手段是标准化成就测验和教师自编测验。而对于情感以及道德行为表现则常常采用非测验性的评价手段.一、标准化成就测验(一)标准化成就测验的含义标准化成就测验是指由专家或学者们所编制的适用于大规模范围内评定个体学业成就水平的测验.它是评价学生学业成绩的重要工具之一.(二)标准化成就测验的特点测验是由专门机构或专家学者按一定测验理论和技术,根据全国或某一地区所有学校的共同教育目标来编制的;所有受试人所做的试题、时限等施测条件相同,计分手段和分数的解释也完全相同;测验都有常
7、模为依据,由全国或地区中抽取有代表性的样本团体来建立;测试规模大,整个地区、国家以至国际上都可统一使用。(三)标准化成就测验的优越性(四)标准化成就测验的程序1、制定测验目的2、修改测验项目3、扩大样本4、确定常模(五)标准化成就测验的优缺点优点:第一,客观性;第二,计划性;第三。可比性。不足:第一,与学校课程之间的关系很不协调。在我国每个地区的教学状况还存在着一定的差距,教师在选用标准化测验前,仔细查阅内容效度,使得测验的目标与评价的目的相匹配。第二,测验结果的不当使用。我们通常利用标准化成就和能力测验对学生分类和贴标签,对个体造成了不良影响.(六)标准化成就测验的目的标准化成就测验则用来判
8、断学生与常模相比时所处的水平。二、教师自编测验(一)自编测验的含义与特点教师自编测验是由教师根据具体的教学目标、教材内容和测验目的,自己编制的测验,是为特定的教学服务的。教师自编测验通常用于测量学生的学习状况。特点:1、由教师本人或使用者根据不同的目的、时间来编制。2、对不同的被测者,可以有不同的测题、时间限制和计分手段。3、测验规模限于校内或班级,测验的适用范围小。4、以教师本人的经验来估计测验的可靠、有效和实用,一般无信度、效度和常模。属于小规模的学习评价。(二)测验前的计划1确定测验的目的. 2确定测验要考查的学习结果。3列出测验要包括的课程内容。4写下考试计划或细目表。细目表是将考试具
9、体化的最重要的工具,使得测验能够与教学的目标和内容保持一致.细目表的形式是两维表,一般纵拦表示学习结果,横栏表示课程的内容或范围。中间的栏目,就是教师根据自己的情况填上在测验中计划测量多大比例的学习结果和课程内容。5针对计划测量的学习结果,选择适合的题型.自编测验包括客观题和主观题两种类型。教师使用哪一种类型的题目是由测验的目的、内容和时间决定的.(三)自编测验的类型1客观题客观题具有良好的结构,对学生的反应限制较多.这类题目包括选择题、是非题、匹配题和填空题等。(1)选择题。选择题是由题干和两个或更多的选项组成的。题干可以是直接提问或者以不完整的句子的形式出现,目的是为了设置问题情境.而选项
10、则提供可供选择的答案,包括一个正确答案和若干具有干扰性的错误项或迷惑项.学生的任务就是阅读题目,再从一系列选项中挑选出正确的项目. 教师在出题时,要综合考虑题干和选项,使整个题目清楚明了.选项的数量一般没有统一的规定,大多是45个,良好的选择题题干应该明确简单,而选项又深具迷惑性.选择题还有一种常用变式选项中有一至多个正确答案,即通常被称为多选题。选择题可适用于不同材料,可考查学生多方面知识,加上评分客观、省时,因此在标准化测验中广泛使用;但它答案固定,测不出组织材料的能力和创造力;同时由于题量大,要为每个题目编写迷惑答案,任务比较繁重.(2)是非题,是非题又称正误题,此类题学生需要识别、选择
11、出正确答案。常用的形式是,陈述一句话要求学生判断对错或是非。是非题可用于测量不同水平的教学目标。是非题形式简单。能够在一份试卷内覆盖大量的内容。教师在评判时也较客观,计分简便省时.但是.一个重要的问题是:学生只有两种选择对或错,容易猜测。(3)匹配题.区配题是另一种可提供多种选择的考试形式.通常,题目包括两列词句,一列是问题选项。一列是反应选项.学生根据题意按照某种关系将左右的项目连接起来。匹配题形式简单,能够有效地测量学生对知识联系的掌握情况且易于计分。但是,它只能用于测查彼此存在着简单关系的知识。(4)填空题。填空题是呈现给学生一句或一段不完整的话或者直接提问,要求学生简要做答。填空题可以
12、考查学生对知识记忆和理解,以及推理和判断能力。填空题的问题在于,学生的答案各不相同甚至还会出现出人意料的答案学生的答案还会受笔迹、用词等无关因素的影响.2主观题主观题则要求学生自己组织材料,并采用合适的方式表达陈述出来.这类题型包括论文题及问题解决题。教师在评分时,对学生的回答需要给出不同量的分值。(1)论文题。论文题是指要求学生用文字论述方式阐述相关观点的题目,回答字数可以从几段到几大页不等。一般较常使用的有两种类型。有限制的问答题和开放式论文。有限制的问答题,是指教师对回答的内容和长度都有规定,开放式论文,则允许学生在内容上可以自由选材,自由发挥,而且篇幅较长.论文题可以测验知识、理解或运
13、用水平,也可考查学生的分析、综合、类比和评估知识的能力.还可考查学生组织信息或表达陈述某项意见的能力.使用论文题也有不妥之外。首先,学生回答论文题需要花费很多时间。其次,对于熟悉自己学生的教师,在判卷时很难做到客观,导致信度较低。在评分时.经常出现一种现象一一晕轮效应,即教师对学生的总体印象影响到对论文题目的评价。(2)问题解决题。问题解决题是向学生提供一定的问题情境和目标情境,要求学生通过对知识进行组织、选择和运用等复杂的程序来解决问题。通常有两种形式,一种是间接测验,是采用纸笔测验来评价学生的学业成就或能力。学生在完成时,通常必须写出若干步骤或过程,以展现他的思路.评分时,按照步骤计分。如
14、果缺少某些步骤就不能得分。问题解决题的另一种方式则是直接测验。由于它考查了学生处理实际问题的能力.所以有时又叫做操作评价.操作评价对于考查高级思维技能十分有效,但是往往费时费钱。而且主观性较大,并且效度也经常受到质疑。 (四)有效自编测验的特征1信度信度是指测验的可靠性,即多次测验分数的稳定、一致的程度.它既包括在时间上的一致性,也包括内容和不同评分者之间的一致性。信度指标通常以相关系数表示即用同一被试样本所得的两组资料的相关系数作为测量一致性的指标,称为信度系数。影响信度的相关因素有:测题数量;测验难度;施测对象;施测过程。(1)重测信度法同样的问卷,对同一组访问对象在尽可能相同的情况下,在
15、不同时间进行两次测量.两次测量相距一般在两到四周之内.用两次测量结果间的相关分析或差异的显著性检验方法,评价量表信度的高低。 (2)折半法。折半法是将上述两份问卷合成一份问卷(通常要求这两份问卷的问题数目相等),每一份作为一部分,然后考察这两个部分的测量结果之间的相关性。(3)折半信度法折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度。折半信度属于内在一致性系数,测量的是两半题项得分间的一致性.这种方法一般不适用于事实式问卷(如年龄与性别无法相比),常用于态度、意见式问卷的信度分析.在问卷调查中,态度测量最常见的形式是5级李克特量表.2效度效度是指测量的正确性,即
16、一个测验能够测量出其所要测量的东西的程度,它是科学测量工具最重要的质量指标.效度考虑的问题是:测验测量什么?测验对测量目标的测量精确性和真实性有多大?效度的重要性大于信度。但效度并不是绝对的,而是相对的任何一种测验只是对一定的目的来说是有效的,对其他目的和用途却不一定有效.(1)内容效度:指项目对欲测的内容或行为范围取样的适当程度。例如,教师在讲授了一段时间课程之后就要进行考试,而试卷不可能包含所有内容,只能从中选出一个代表性样本来测试,再根据分数来推论学生在该范围内的知识技能的掌握情况。如果测试题目是该范围内容的好样本,推论就有效。 (2) 结构效度:指测量结果体现出来的某种结构与测值之间的
17、对应程度.结构效度是指实验与理论之间的一致性,即实验是否真正测量到假设(构造)的理论。(3)效标效度:又称预测效度。效标效度是指量表所得到的数据和其他被选择的变量的值相比是否有意义。效标效度就是考查测验分数与效标的关系,看测验对感兴趣的行为预测得如何。因为效标效度需要有实际证据,所以又叫实证效度。3区分度区分度是指测验项目对所测量属性或品质的区分程度或鉴别能力.项目的效度越高,其区分度越犬,鉴别力越强。它是根据学生对测验项目的反应与某种参照标准之间的关系来估计的。项目区分度高低与测验目的密切相关。(五)自编测验的常见错误 1教师过于相信自己的主观判断而忽视测验的信度和效度指标.2许多教师对测验
18、准备的重要性缺乏足够的认识,对测验准备不够充分,甚至没有准备。3许多教师编制的测验太简单,题量太小。三、非测验的评价技术(一)案卷分析 案卷分析是一种常用的评价策略,其内容主要是按照一定标准收集起来的学生认知活动的成果。对学生的作品进行考查分析,并形成某种判断和决策的过程就是案卷分析。(二)观察通过教学过程中的非正式观察,教师也能够收集到大量的关于学生学业成就的信息.这种观察不只限于智能的发展,还包括学生生理、社会和情绪的发展.为了确保观察的有效性,教师应注意自然地对学生进行全面系统的观察,然后客观、详细地记录下观察信息。1行为检查单教师可以使用检查单来记录其在教学中的观察结果。检查单一般包括
19、一系列教师认为重要的目标行为通常采用有无的方式记录,但有时也记录下次数。行为检查单使用简便易行,对于教师非常有用.2轶事记录轶事记录是描述所观察的事件。它可以提供比较详细的信息,这些记录一般按照发生时间排列的.教师可以在事先有明确的观察目标,就某一方面的行为进行记录;也可以没有明确目的,事后再专门分析或考查某一件事。它的缺点是:轶事记录比较费时,而且也很难排除主观偏见。3等级评价量表等级评价量表对于连续性的行为,可能更为有效。它可用于判断某种行为的发生频率,以及某种操作或活动的质量,使得观察信息被量化。评价量表是一种间接的观察技术,通过量化所观察的信息,可以迅速简便地获得概括化的信息.评价量表
20、和行为检查单有-一定关系.二者都要求教师对学生的行为进行判断,可以在观察过程中或结束后使用。但是它们的评价标准不同,检查单只需要做定性的判断,而等级评价量表是做定量的判断。(三)情感评价教师可以自行编写开放式问题、问卷等。对学生的情绪、学习动机、个人观点等进行评价.而在对结果的评价时,教师也需要写一份详细的报告。四、教学评价结果的处理与报告 (一)评分评分的标准可分为绝对标准和相对标准两种。绝对标准是以学生所学的课程内容为依据。它强调.由于不同学生的学习起点和背景情况的差异。所以他们的学习结果也是不可比较的。它对应的评价方式是标准参照评价。相对标准是以其他学生的成绩为依据,对应于常模参照评价.
21、相对标准的评价不仅与学生自己的成绩有关,还与其他同学的成绩有关。合理的评分过程应包括如下步骤:收集有关学生的信息,信息可以来源于不同类型、性质的测验甚至观察的评价方式。系统地记录下评价的结果。并随时保持最新的结果.尽量将收集的资料量化,用数据来表示学生的学习情况。为了把评价的重点放在最终的学习成就教师需要加大最后测验得分的权重.评价应该以成就为依据,而其他特征的评价,不要和成就的评价混杂起来. (三)其他报告方式教师写学生的个人鉴定或定期的综合评价,提供给家长和学生。观察报告也是一种报告评价结果的形式。此外,通过与家长面谈,也可以交流关于学生的学习、行为和态度等方面的资料。一、单向选择题1衡量
22、一个测验有效性、正确性的重要指标是( ). A信度 B效度 C难度 D区分度 2根据教学评价的功能,可将其分为( )。A形成性评价与总结性评价 B常模参照评价与标准参照评价 C配置性评价与诊断性评价 D正式评价与非正式评价 3系统地收集有关学生学习行为的资料,参照预定的教学目标对其进行价值判断的过程称为(B)。 A教学测验 B教学评价 C教学测量 D教学鉴定 4教学评价的目的是对课程、教学方法以及学生培养方案(D)。A作出分析 B作出判断 C进行评估 D作出决策 5在教学过程中让学生对自己的学习状况进行自我评估,或者凭教师的平常观察记录或与学生的面谈而进行的教学评价属于(B)。 A配置性评价
23、B形成性评价C诊断性评价 D总结性评价 6对学生学习成就的解释采用了相对的观点。主要用于选拔(如升学考试)或编组、编班的评价方法是(D)。A形成性评价 B总结性评价 C标准参照评价 D常模参照评价 7形成性评价通常发生在(D)。 A教学过程之前 B学生毕业时 C教学过程之后 D教学过程之中 8基于某种特定的标准来评价学生对与教学密切关联的具体知识和技能的掌握程度的评价方式称为(C)。A常模参照评价 B正式评价 C标准参照评价 D非正式评价 9以学生所在团体的平均成绩为参照标准,根据其在团体中的相对位置(或名次)来报告评价结果的评价方式称为(A)。 A常模参照评价 B标准参照评价 C配置性评价
24、D形成性评价 10通常在一门课程或教学活动结束后进行、对一个完整的教学过程进行的测定称为( D)。 A配置性评价 B形成性评价 C诊断性评价 D总结性评价 11教学评价(A)测量和测验. A不等同于 B等同于 C毫无关系 D包括12标准化成就测验是指由专家或学者们所编制的适用于大规模范围内评定个体学业(A)。 A成就水平的测验 B能力形成的测验 C结构的测验 D智力发展的测验 11诊断性评价多半是在(B)实施。 A教学过程中 B形成性评价之后 C形成性评价之前 D教学过程之后 13通过对学生的家庭作业或课堂练习、论文、日记、手工制作的模型、绘画等各种作品进行考查分析。并形成某种判断和决策的过程
25、称为(C)。 A个案研究 B观察分析 C案卷分析 D轶事记录14按照研究的目的,有计划、有系统地直接了解学生的行为表现.对所了解的事实加以记录和客观的解释,以了解学生心理和行为特征的方法称之为(A)。 A观察法 B心理测验法 C谈话法 D自述法 15(D)可用来考查学生对知识的回忆,且可将学生的猜测可能性降到最小。 A.选择题 B.是非题C.论文题 D.填空题 16(B)是衡量一个测验正确性的重要指标,即一个测验能够测量出所要测量的东西的程度. A信度 B效度 C难度 D区分度 二、填空题 1对认知和技能领域的学业成就的评价,最常用的评价手段是标准化成就测验和教师自编测验。 2教学评价是一种系
26、统化的持续的过程,包括确定评估目标、搜集有关资料、描述并分析资料、形成价值判断以及做出决定等步骤. 3测量主要是一种收集资料数据的过程,是根据某种标准和一定的操作程序,将学生的学习行为与结果确定为一种量值,以表示学生对所测问题了解的多少. 4。 非测验性对于情感以及道德行为表现的评价则常常采用-的评价手段,如案卷分析、观察、问卷量表以及谈话等。 5教师自编主观题的类型包括论文题和问题解决题两类。 6教学测量和测验是对学习结果的客观描述,教学评价是对客观结果的主观判断与解释。 7常模是解释测验结果的参照标准,由总体测量结果的统计平均值表示。 8细目表的形式是两维表,一般纵栏表示学习结果,横栏表示
27、课程的内容或范围,中间的栏目就是教师根据自己的情况填上在测验中计划测量多大比例的学习结果和课程内容。9选择题是由题干和两个或更多的选项组成的,题干可以是直接提问或者以不完整的句子的形式出现,而选项是提供可供选择的答案.选项中有一至多个正确答案的称作多选题。 10论文题是指要求学生用文字论述方式阐述相关观点的题目,回答字数可以从几段到几大页不等,一般常用的是有限制的问答题和开放式论文。11问题解决题通常有两种形式:间接测验和直接测验。 12信度指标通常以相关系数来表示,即用同一被试样本所得的两组资料的相关系数作为测量一致性的指标,称为信度系数。 13常用的观察的方法有行为检查单、轶事记录和等级评
28、价量表,检查单与评价量表的评价标准不一样,检查单只需要做定性的判断,而等级评价量表是做定量的判断。三、简答题1简述测验前的计划。 (1)确定测验的目的(2)确定测验要考查的学习结果(3)列出测验要包括的课程内容(4)写下考试计划或细目表(5)针对计划测量的学习结果选择合适的题型。 2标准化成就测验的特点。 (1)测验是由专门机构或专家学者按一定测验理论和技术,根据全国或某一地区所有学校的共同教育目标来编制的;(2)所有受试人所做的试题、时限等施测条件相同,计分手段和分数的解释也完全相同。 3说明标准化成就测验的含义与优越性。 标准化成就测验是指由专家或学者们所编制的适用于大规模范围内评定个体学
29、业成就水平的测验.优越性体现在三个方面:(1)客观性。在大多数情境下,标准化测验是一种比教师发展出的测验更加客观的测量工具。(2)计划性.专家在编制标准化测验时已经考虑到所需的时间和经费,因此标准化测验比大部分的课堂测验更有计划性。(3)可比性。标准化测验由于具有统一的参照标准,使得不同考试的分数具有可比性. 4简述教学测量与评价的功能。 (1)为师生调整和改进教学提供充足的反馈信息。(2)是学校鉴别学生学业成绩、家长了解学生学习情况的主要方式。(3)是教学过程的一个重要组成部分.(4)作为教育评价和决策的依据。 四、论述题 1试述教学测量与评价的分类. (1)形成性评价和总结性评价。从实施教
30、学评价的时机而言。有形成性评价和总结性评价之分.形成性评价通常在教学过程中实施。一般是由学生完成一些与教学活动密切相关的测验。总结性评价。或称终结性评价,通常在一门课程或教学活动结束后进行,是对一个完整的教学过程进行测定。 (2)常模参照评价和标准参照评价。根据教学评价资料的处理方式,有常模参照评价和标准参照评价之分.常模参照评价是指评价时以学生所在团体的平成绩为参照标准,根据其在团体中的相对位置(或名次)来报告评价结果。标准参照评价,是基于某种特定的标准,来评价学生对与教学密切关联的具体知识和技能的掌握程度。(3)配置性评价和诊断性评价。从教学评价的功能看。有配置性评价与诊断性评价之分。配置
31、性评价,或称准备性评价,一般在教学开始前进行,摸清学生的现有水平及个别差异,以便安排教学。诊断性评价指了解学生的学习基础与个体差异;有时指对经常表现学习困难的学生所做的评价,多半是在形成性评价之后实施。 (4)正式评价和非正式评价.根据教学评价的严谨程度,有正式评价与非正式评价之分。正式评价指学生在相同的情况下接受相同的评估,且采用的评价工具比较客观,如测验、问卷等.非正式评价则是针对个别学生的评价,且评价的资料大多是采用非正式方式收集的如观察、谈话等。 2如何对教学评价结果进行处理与报告? (一)评分 评分时必须以一定的比较标准为依据.评分的标准可分为绝对标准和相对标准两种绝对标准是以学生所
32、学的课程内容为依据。学生的分数和其他同学的回答情况没有关系.而且绝对标准强调由于不同学生的学习起点和背景情况的差异所以他们的学习结果也是不可比较的。它对应的评价方式.是标准参照评价。相对标准是以其他学生的成绩为依据,对应于常模参照评价。相对标准的评价不仅与学生自己的成绩有关还与其他同学的成绩有关。 合理的评分过程应包括如下步骤:搜集有关学生的信息,信息可以来源于不同类型、性质的测验甚至观察的评价方式。例如教师对学生期末学习成绩的评价通常是期末考试成绩占70,平时作业和考试成绩占20,课堂表现占10%。系统地记录下评价的结果并随时保持最新的结果。尽量将搜集的资料量化用数据来表示学生的学习情况。为了把评价的重点放在最终的学习成就。教师需要加大最后测验得分的权重。评价应该以成就为依据。而其他特征的评价,不要和成就的评价混杂起来。 (二)合格与不合格 有些课程采用合格与不合格来评价学生的成就。 (三)其他报告方式 除了常用的评分方法教师还可以使用其他方式来报告评价结果。考点过关:教学评价的概念与分类,教学评价与测量及测验的关系,标准化成就测验,教师自编测验8