1、课程性质和教学要求课程的性质:教育测量与评价是教育测量学与教育评价学内容的整合并侧重于教育测量的一门综合性教育课程,它着力探讨对教育教学效果进行测量、评价的原理和方法,是一门带有综合性、技术性、实践性、应用性等特征的应用性学科,是实现教育科学研究与教育管理科学化所必须借助的一门科学,也是教育学专业和小学教育专业所开设的一门必修专业基础课程。教学目标和要求:理解教育测量与评价的基本概念、原理和方法,能正确使用各类标准化的教育测验、会作测验质量分析、能正确解释分数的含义,并学会运用这些知识,对学校教育、教学和研究实践中的实际问题,做出比较正确与合理的判断和评价,以促进教育管理现代化、教育研究科学化
2、。第一章教育测量与评价的学科发展教育测量与评价的基本问题 教育测量与评价的发展历史 教育测量与评价的学科地位和作用 1.测量的定义 史蒂文斯曾对测量作出以下定义:“就其广义来说,测量是按照法则给事物指派数字。” 我国有些学者认为:“测量是对客观事物进行某种数量化的测定”,“测量是按照一定的法则,用数字方式对事物的属性进行描述的过程”。 本书的观点:从广义上讲,测量就是根据某些法则与程序,用数字对事物在量上的规定性予以确定和描述的过程。 从以上对测量所下的各种定义可以看出,这种对事物进行区分的过程,必须是按照一定法则的,区分的结果必须能够用数字的方式进行描述的。2.测量的要素(1)测量的量具 测
3、量的量具是指依据某些科学原理和法则,发展出合适的量具或制定出科学的测量方案。(2)测量的单位 不同的测量所采用的单位是不同的。 理想的测量单位必须符合两个条件: 要有确定的意义; 要有相等的价值。教育测量的单位不够完善,既无统一的单位,也不符合等距的要求。(3)测量的参照点量的参照点系测量的起点。要确定事物的量,必须有一个测量的起点,这个起点就叫做测量的参照点。参照点有两种类型: 绝对参照点(绝对零点); 相对参照点(相对零点)。理想的参照点是绝对参照点,但教育测量中很难找到绝对零点,多采用人为指定的相对零点。3.教育测量的定义与特点教育测量的定义 教育测量,就是针对学校教育影响下学生各方面的
4、发展,侧重从量的规定性上予以确定和描述的过程。教育测量的特点(1)本书的观点: 间接性和推断性; 测量对象的模糊性和测量误差的不可避免性; 量表具有多样性,结果具有相对抽象性。(2)其他的观点: 有人概括为: 间接性; 相对性。(金瑜) 有人概括为: 间接性; 相对性; 客观性。(郑日昌) 有人概括为: 间接性; 不确定性; 明确的目的性。(朱德全、宋乃庆)4.量表及其种类量表的概念 量表(量尺)是指确定了测量单位和参照点并具有取值系统的测量工具。量表的类型 由于事物的属性(特征)不同,以及所制定的规则不同,致使用数的属性来描述事物属性(特征)所达到的程度不同,这就产生了不同测量水平的问题。史
5、蒂文斯根据对测量结果数量化描述的不同水平,将测量分成四种不同水平:称名测量、顺序测量、等距测量、比率测量。这四种不同水平的测量产生了相应的四种类型的量表。5.称名量表和顺序量表称名量表(命名量表或名称量表或类别量表) 称名量表是最低水平的测量量表,它只是用数字代表事物或用数字对事物进行分类。在这种情况下,数字只是事物的符号,而没有任何数量的意义。适合于对称名量表进行统计分析的统计方法有百分比、次数、众数和2 检验。顺序量表(等级量表) 顺序量表是次低水平的测量量表,它不仅能够指代事物类别,而且能够表明不同类别的大小、等级或事物具有某种特征的程度。在顺序量表中,数字只表示等级、大小和程度的顺序,
6、它既没有相等的单位,也没有绝对的零点。适合于对顺序量表进行统计分析的方法有中数、百分位数、等级相关系数和肯德尔和谐系数等。6.等距量表和比率量表等距量表 等距量表是较高水平的测量量表,它不仅能够指代事物的类别、等级,而且具有相等的单位。适合于对等距量表进行统计分析的方法有平均数、标准差、积差相关系数以及t检验和F检验。比率量表(等比量表)比率量表是最高水平的测量量表,它除了具有类别、等级、等距的特征外,还具有绝对零点。适合于对比率量表进行统计分析的方法除了与等距量表相同外,还有几何平均数、变异系数。7.教育测量属于哪一种水平的测量,为什么?答: (1)教育测量属于顺序测量的水平。 (2) 从所
7、使用的参照点来说,教育测量领域的参照点均为相对参照点; 从所使用的单位来说,教育测量的单位远没有其他测量的单位成熟和完善, 既无统一的单位,也不符合等距的要求。8.教育评价的概念(如何理解“教育评价”的含义?)评价的含义 广义的讲,评价泛指衡量、判断人物或事物的价值。教育评价的定义 对于什么是教育评价,专家、学者至今没有一个统一的认识。但具有代表性的观点有以下几种: 格兰朗德:评价是为了确定学生达到教学目标的程度,收集、分析和解释信息的系统过程;评价包括对学生的定量描述和定性描述两方面。 斯塔费尔比姆:评价是一种规定、获取和提供叙述性和判断性的过程。这些信息涉及研究对象的目标、设计、实施和影响
8、的价值及优缺点,以便指导如何决策、满足教学效能核定的需要,并增加对研究对象的了解。 美国教育评价标准委员会:评价是某些现象的价值如优缺点的系统调查,为教育决策提供依据的过程。 泰勒:评价评价的过程在本质上是确定课程和教学大纲在实际上实现教育目标的程度的过程。 德雷斯:所谓评价,就是决定某种活动、目的及程序的价值的过程。 桥本重治:评价是与教育的目标和价值有明确关系的概念,是按照教育目标和价值观对学生的学习成果及教育计划的效果等进行测量的过程。 布鲁姆:评价乃是系统地收集证据用以确定学习者实际上是否发生某些变化,确定学生个体变化的数量或程度。 我国学者黄光扬:教育评价是指按照一定的价值标准和教育
9、目标,利用测量和非测量的种种方法系统地收集资料信息对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断,并为教育决策提供依据的过程。从上述对“评价”概念在教育教学活动情境下的各种描述中不难发现,教育评价包含以下几个共同的要点: 强调以教育目标为标准的价值判断过程; 强调运用多种方法系统收集资料和信息; 教育评价的内容既要以是教育计划、也要以是学生的学习结果,也要以是某种教育现象、教学活动、教育目的或教育程序; 强调为学生发展和教育决策服务。9.教育测量与教育评价的关系 测量与评价既有联系又有区别。教育评价最根本的特征是做出价值判断。而教育测量过程的完结,在给出数量事实的描述与判
10、断之后,不一定都要做出价值判断。从这个意义上说,教育测量可以为教育评价提供价值判断的基本数量事实,教育测量是教育评价的基础;而教育评价往往是教育测量过程的继续,是对测量结果的解释与应用,并朝着价值判断与释放教育功能的方向拓展。10.思考题:教育测量与教育评价有何区别?答: (1)教育评价最根本的特征是做出价值判断。而教育测量在给出数量事实的描述与判断之后,不一定都要做出价值判断。 (2)教育测量可以为教育评价提供价值判断的基本数量事实,教育测量是教育评价的基础;而教育评价往往是教育测量过程的待续,是对测量结果的解释与应用,并朝着价值判断与释放教育功能的方向拓展。11.教育评价与教育评估的关系
11、教育评价与教育评估这两个概念既有联系又有区别。第一,英语词源不同(教育评价通常用“education evaluation”表示,教育评估通常用“educational assessment”表示),其意义则多少有所差别;第二,源出相同(教育测量运动、美国著名的“八年研究”),它们肯定有想通与交叉之处;第三,汉语词义相近(“评估”一词,含有“评判”、“评量”、“估测”、“估算”等意思;教育评估可能有价值判断,也可能没有价值判断),它们在内容上有交叉,也有区别;22.教育测量与评价的发展历史(1)中国是考试制度的发源地(2)中国科举制度的世界地位(3)教育测量学科的诞生(4)教育测量运动的蓬勃开
12、展(5)美国的“八年研究”是教育评价的催生剂(6)教育测量与评价理论的发展13.教育测量与评价的学科地位和作用 (1)教育测量与评价是现代教育科学研究的三大领域之一; (2)教育测量与评价在教育改革中具有重要的作用; (3)教育改革呼唤教育测量与评价更加科学化;(4)教育测量与评价是教师的专业素养和能力。第二章教育测量与评价的类型和功能教育测量与评价的主要类型 教育测量与评价的主要功能1.教育测量与评价的类型1.按测量与评价在教学中运用的时机分类,教育测量与评价可分为: (1)形成性测量与评价: 形成性测量与评价是在教学活动过程中经常实施的,其目的:其一,教师藉此获得教学过程中连续性的反馈,了
13、解学生的学习效果、学习历程、学习特点、学习困难等信息,作为随时修正自己教学的参考;其二,学生根据反馈的结果获知自己学习后的表现情况,从而肯定或修正自己以后的学习方式。 (2)诊断性测量与评价: 诊断性测量与评价是对经常表现出学习困难的学生所作的测量与评价,它的目的是对个人的问题行为及其原因进行诊断。诊断性测量与评价多半是在形成性测量与评价之后实施。(3)终结性测量与评价:终结性测量与评价是用于教学结束后,其目的:其一,在教学目标之下,检查学生一学期的学业达到了什么样程度,从而判断教学效果的得失;其二,根据终结性测量与评价的结果,评定学生的学业成绩,并将评定结果通知学生家长或记入档案。2.按解释
14、测量结果或评价结果时的参照点分类,教育测量与评价可分为: (1)常模参照测量与评价:常模参照测量与评价是将被试水平与测验常模相比较,以评价被试在团体中的相对地位的一种测量与评价类型。(2)标准参照测量与评价(目标参照测量与评价):标准参照测量与评价是将被试的表现与既定的教育目标或行为标准相比较,以评价被试在多大程度上达到该标准。(3)潜力参照测量与评价:潜力参照测量与评价是将被试实际水平与其自身潜在水平(潜力)相比较,以评价被试有无充分发挥自身潜力为目的。在强调人性化、动态化和个别化的现代教育测评潮流下,潜力参照测量与评价理应发挥更大的作用3.按测量与评价被试行为表现的性质分类,教育测量与评价
15、可分为:(1)最佳行为测量与评价:最佳行为测量与评价是以测量最佳行为表现为目的。凡是以成就或能力的高低为评价基础的,都属于最佳行为测量与评价。(2)典型行为测量与评价:典型行为测量与评价的目的不在测量与评价被试能力的高低,而是测量与评价其是否具备某种(或某些)典型行为。在这些测量过程,希望被试以其平常的典型状况来回答,无所谓正确与错误之分。在重视学生个性发展和全人教育的现代教育理念下,典型测量与评价的方法具有特殊的意义。4.按测量与评价的内容分类,教育测量与评价可分为: (1)智力测量与评价:智力测量与评价的目的在于测量被试的智力并对被试的智力发展水平和特点做出评价。 (2)能力倾向测量与评价
16、:能力倾向测量与评价的目的在于测量与评价个人的潜在才能,预测个人的能力发展倾向。能力倾向测量与评价一般可分为两种:一种是关于一般能力倾向的测量与评价,旨在探测个人多方面的潜能;另一种是特殊能力倾向测量与评价,旨在探测个人某方面的特殊潜在能力。 (3)成就测量与评价:成就测量与评价的目的在于测量并评价个人在接受教育或训练后的成就。成就测量与评价有两种类型:一是学科成就测验,旨在测量与评价被试在某一科目上的学习成就;二是综合成就测验,旨在测量与评价被试在多个学科或综合学科上学习成就。 (4)人格测量与评价(个性测量与评价):人格测量与评价的目的在于测量与评价被试的人格心理特征,诸如气质、性格、兴趣
17、、态度、动机、适应性等方面的心理特征。用于人格测量与评价的量具主要分为两类:一类是自陈人格问卷;另一类是投射测验。5.按测量与评价的对象分类,教育测量与评价可分为: (1)个别测量与评价:个别测量与评价是指同一主试在同一时间内只能测量一个被试。这种形式的测量与评价,主试对被试行为反应有较多的观察和控制机会,主试与被试有更多的交流,这可让主试获得更多的信息,也可以建立较融洽的主被试合作关系,有利于测量与评价的进行。但是个别测量与评价费时、费力,特别是主试必须经过严格的训练才能胜任。 (2)团体测量与评价:团体测量与评价是指在同一时间内由一位主试测量许多位被试。这种形式的测量与评价突出的优点是节省
18、时间,可以在短时期内收集到大量的测量数据。但由于同一时间内接受测量的被试多,不易有效地控制被试的行为,容易产生测量误差,从而影响测量的信度和效度。6.按测量与评价的材料(测验材料)分类,教育测量与评价可分为: (1)文字测量与评价(文字测验、纸笔测验):文字测量与评价的测验内容是以文字的形式表现的,被试也用文字作答的一种测量与评价的方式。对于不同教育背景的被试,这种测量与评价的有效性将受到一定程度的影响。 (2)非文字测量与评价(非文字测验、操作测验):非文字测量与评价的测验内容是通过图形、仪器、工具、实物、模型等形式表现的,被试通过指认、手工操作向主试提供答案的一种测量与评价的方式。这种形式
19、的测量与评价不受或较少受文化背景的影响与限制。7.按测量与评价量具有的标准化程度分类,教育测量与评价可分为: (1)标准化测量与评价(标准化测验):标准化测量与评价的测验是指由测量专家严格按照测验编制程序而精心编制的一种测验。通常标准化测验都具有一定的编制程序,包括试题的抽样,难度、区分度指标分析,明确的施测指导语和施测程度,计分标准,解释分数的常模,以及信度、效度等指标资料。 (2)非标准化测量与评价:非标准化测量与评价的测验编制相对自由,没有严格按照测验编制程序进行。教师自编测验常由教师依照自己的教学需要和教学目标而自行编制的测验,是一种非标准化测验。2.教育测量与评价的功能(1)实现教育
20、判断的功能 教育测量与评价的最基本、最原始、最现实、最普遍的功能,就是实现教育判断,具体来说就是实现测量评定、事实判断、价值判断、问题诊断和区分选拔等功能。(2)改进教师教学的功能通过教育测量与评价的结果,教师能够了解学生的起点行为,作为改进教学、补救教与学的依据,确保教学目标的达到,从而充分发挥其改进教师教学的功能。(3)促进学生学习的功能教育测量与评价具有激励学生的学习动机、帮助学生的记忆和促进迁移、促进学生自我评价等促进学生学习的功能。(4)行使教育管理的功能教育测量与评价具有控制、指挥、导向、计划、检查、考核、评估和监督等方面的作用,通过对教师、目标和过程等方面管理来行使其教育管理的功
21、能。第三章教育测量与评价的质量特性教育测量与评价的信度教育测量与评价的效度教育测量与评价中项目的难度教育测量与评价中项目的区分度1.信度的意义 信度是指测量结果的稳定性程度,记为rXX 。换一句话说,信度是指用同一测量工具反复测量同一种物质对象所得多次测量结果间的一致性程度。 测验信度是对测验工具及其操作的整体质量的一种量度,是测验性能的重要质量指标。如果测验本身抗干扰能力强,测验实施过程各方面误差因素都控制得好,多次施测所得分数(测值)的一致性就高,那么测量信度高,人们在使用所得测值时就会感觉可靠。2.信度的统计定义 定义1:信度是一个被测团体真分数方差与观察分数方差之比。即:XX=2T /
22、 2X 定义2:信度是一个被试团体的真分数与观察分数的相关系数的平方。即:XX=2TX 定义3:信度是一个被试团体在测验X(A卷)上的观察分数与在测验X的任意一个“平 行测验” X(B卷)上观察分数的相关系数。即: XX= XX3.重测信度(稳定性系数)(1)重测信度是指用一个量表(测验或评价表)对同一组被施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的相关系数。(2)重测信度基本假设:某测验所要测量的潜在特质,短期内不会随着时间推移而改变。(3)重测信度适用于异质性测验(一个测验包括几个不同的部分,这几个部分分别测量几个不同的心理特质,它们之间可能并不存在相关或相关较
23、低),也适用于速度测验和运动技能测验。4.复本信度(等值性系数或等值稳定性系数) (1)复本信度是指两个平行测验(在试题格式、题数、难度、指导语说明、施测要求等方面都相当,并且都用来测量相同潜在特质或属性,但试题又是不相同的测验)测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的相关系数。 (2)实施复本测验的方式:一是在同一个时间连续施测(此时所得的复本信度叫等值性系数),二是间隔一段时间后施测(此时所得复本信度叫等值稳定性系数)。 (3)使用复本信度首先要构造出两份或两份以上的真正的平行测验。这是一个很难达到的条件。另外,重测信度的一些不足,在复本信度中仍然
24、存在,需要加以克服。 (4)复本信度不仅适用于难度测验,也是估计速度测验信度的好方法。5.同质性信度的概念(1)同质性信度(内部一致性信度)是指测验内部所有题目间的一致性程度。这里题目间的一致性含有两层意思:其一是指所有题目测的是同一种心理特质;其二是所有题目得分之间都具有较高的正相关。(2)同质性信度的基本假设:当一个测验具有较高的同特性信度时,说明测验主要测的是某一单个心理特质,由于众多的题目测试了同一心理特质,那么实测结果就是该特质水平的反映。 (3)同质性信度不适用于异质测验和速度测验。6.同质性信度的估计方法(1) 分半信度 分半信度指是的将一个测验分成对等的两半后,所有被试在这两半
25、上所得分数的一致性程度。 分半信度的计算方法和等值复本信度的方法类似,只不过分半信度计算的是两个“半测验”上得分的相关系数,只是半个测验的信度,还必须用斯皮尔曼布朗公式加以校正 。(2) 库德理查逊信度 该方法适合于测验题目全部为二分记分题的测验的内部一致性信度分析。常用的库德理查逊公式有: (3)克龙巴赫系数 当测验题型较多,并非都是二分记分题时,估计测验信度可采用克龙巴赫系数。其计算公式为:(4) 荷伊特信度 1941年荷伊特提出用方差分量比来估计测验内部一致性的方法,其估计值为:7.评分者信度评分者信度的含义 评分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度。 评分者信度的计
26、算 (1)当评分者人数为两人时,评分者信度等于两个评分者给同一批被试的答卷所评分数的相关系数。依据数据形式,可采用不同的相关系数计算方法。 (2)当评分者人数多于两人时,评分者信度可用肯德尔和谐系数进行估计。8.标准参照测验的信度分析()百分比一致性指标(PA) 百分比一致性指标是指同一测验或两平行测验先后两次施测,其对被试的分类结果一致的比例。其计算公式为:()K一致性系数 K一致性系数是指实际被评定为一致的百分比与在理论上被评定为一致的最大可能次数百分比的比率。其计算公式:()K2 指数 标准参照测验关注决断的可靠性,而这种决断显然与被试团体的平均水平密切相关。在考虑到这个因素的基础上,心
27、理统计学家莱芬斯顿提出了K2指数作为考察标准参照测验信度的指标。其计算公式为:9.测量标准误测量标准误的含义 测量标准误是指测验中所得测值偏离真分数的程度,记为SE。 测量标准误与测验信度的关系 测量标准误的意义 测量标准误是反映测量结果精确性和可靠性的又一指标,同时也是人们正确解释测验分数的科学依据。10.效度的概念 效度的意义 效度是指一个测验或量表实际能测出其所要测量的特性的程度。对这一概念,我们可以从以下几个方面来理解: 效度始终是针对一定测量目的而言的; 效度只有程度上的差异; 效度是针对测量结果而言的; 评价一个测量是否有效要多角度、多方面地收集证据。 效度的统计定义 效度可定义为
28、目标真分数方差与观察分数方差之比:XY=2V / 2X 效度与信度的关系 ()信度高是效度高的必要而非充分条件 ()效度系数不会大于信度系数的平方根11.如何理解“效度”的意义?效度是指一个测验或量表实际能测出其所要测量的特性的程度。对这一概念,我们可以从以下几个方面来理解: (1)效度始终是针对一定测量目的而言的; (2)效度只有程度上的差异; (3)效度是针对测量结果而言的; (4)评价一个测量是否有效要多角度、多方面地收集证据。12.内容效度内容效度的含义及应用范围 内容效度是指测验题目样本对于应测内容与行为领域的代表性程度。如果是教学情境下的成就测验,那么其内容效度就是看测验题目样本能
29、体现教学目标与教材要求的程度。 内容效度主要适用于教育测量(尤其是学业成就测验)的情境中,也适合于某些用于选拔和分类的职业测验,但不适合某些心理测验(如智力测验、人格测验)。 内容效度的分析方法 逻辑分析的方法 内容效度的逻辑分析法,即依靠有关专家对测验题目与应测内容范围的吻合程度作出判断。 内容效度的量化分析方法 该方法要求专家在仔细审阅测验目标的基础上,独立地对测验的每个题目作出判断:“该题目实际测到的内容与其欲测量的目标内容之间相关程度如何,并用四点量表(用完全无关、有点相关、相关较密切、完全相关来表示)来表示这种相关的程度大小”;当两位专家完成此项工作后,统计弱相关(完全无关、有点相关
30、)、强相关(相关较密切、完全相关)的题目数,则此测验的内容效度系数为:内容效度系数 =D/(A+B+C+D)( D 表示两位专家都判定为强相关的题目数 )13.结构效度结构效度的含义 结构效度是指一个测验或量表实际测到所要测量的理论结构(结构是指心理学或社会学上的一种理论构想或特质)的程度。结构效度的验证一般步骤 提出有关理论结构的说明,并据此设计测量用的试题; 提出可以验证该理论结构是存在的假设说明; 采用各种方法收集实际的资料,以验证第二步提出的假设的正确性; 收集其他类型的辅助证据,淘汰与理论结构相反的试题,或是修正理论,并重复第二和第三步,直到下述的假设得到验证,即测验的结构效度获得支
31、持为止。结构效度的验证方法 测验内部寻找证据法 这种方法是通过研究测验内部结构来验证测验的结构效度。它主要包括内容效度、作答过程分析、测验的同质性和因素分析等四个方面。 测验之间寻找证据法 这一方法的特点是同时考察两个或多个测验间的相互关系,从而来验证测验的结构效度。它包括相容效度、聚合效度、区分效度和“多种特质多种方法矩阵法”等具体方法。 考察测验的实证效度法 如果一个测验有实证效度,则可以拿该测验所预测的效标的性质与种类作为该测验的结构效度指标,至少可以从效标的性质与种类来推论测量的结构效度。主要方法有差异被试比较法和先后测试分析法。14.试比较内容效度、结构效度、效标关联效度的异同?相同
32、点:三者都是作为检验测验有效程度的指标,都可以作为评价一个测验优劣的标准。 不同点: 考察的角度不同。内容效度是指测验题目样本对于应测内容与行为领域的代表性程度。结构效度是指一个测验或量表实际测到所要测量的理论结构(结构是指心理学或社会学上的一种理论构想或特质)的程度。效标关联效度是指一个测验对于处于特定情境中的个体行为进行预测时的有效性。 应用的范围不同。内容效度主要适用于教育测量(尤其是学业成就测验)的情境中,也适合于某些用于选拔和分类的职业测验,但对于某些特质的心理测验(如智力测验、人格测验),内容效度并不适合。结构效度主要用于智力测验、人格测验等一些心理测验方面。效标关联效度适用于能够
33、找到有效效标的测验,常用的效标主要有:学业成就、等级评定、临床诊断、专门的训练成绩、实际的工作表现、对团体的区分能力以及其它现成的有效测验。 确定的方法不同。内容效度确定的主要方法是逻辑分析法、量化分析法。结构效度确定的主要方法是测验内部寻找证据法、测验之间寻找证据法和考察测验的实证效度法;效标关联效度确定的主要方法有相关法、显著差异法、命中率。15.难度的概念题目或项目的难度,就是指被试完成题目或项目任务时所遇到的困难程度。定量刻画被试作答一个题目的困难程度的量数,就叫做题目的难度系数,也常称为难度值,用符号P表示。16.难度系数的计算方法()以全体被试得分率为难度系数 如果一个题目的难度大
34、,则被试得高分的可能性小;反之,如果题目的难度小,则被试得高分的可能性就大。因此,用得分率可以作为难度系数的指标。其计算公式为: 如果题目是选择题的话,被试有可能猜对而得分,因此,对选择题的难度系数有人建议需用下面的公式进行校正:CP =(P-1)(-1)()以全体被试失分率为难度系数直接建立在通过率基础上的难度系数,P 值越大试题越容易,P 值越小试题越难做。这与人们观念可能不一致,因此有人提议用失分率q 来表示难度,计算公式为:q = 1-P()以两端组被试得分率的均值为难度系数 该方法是分别计算高分组被试和低分组被试的得分率,然后求取二者的平均值作为难度系数,公式为: P =(PH+PL
35、)2 以两端组被试的得分率作为难度系数的具体计算步骤: 按被试的总分,将全体被试从高到低进行排序; 从高分往下找,找出高分组;由低分往上找,找出低分组。两组人数分别占总人数的; 分别计算高分组、低分组的被试在该题目上的平均得分; 代入公式 ,分别计算分组和低分组被试在同一个题目上的难度系数; 把 PH 和 PL 代入公式 P =(PH+PL)2 ,计算这个题目的难度系数。17.难度的等距变换用上述方法计算出来的难度系数,都属于顺序变量,不具有相等的单位。因此,通过 P 值的比较并不能客观指出难度之间差异大小,这对我们作进一步的难度分析带来了困难。为了解决这个问题,人们常假设每个试题所要测量的潜
36、在特质或能力是呈正态分布的,然后就可以根据正态分布曲线,将试题的难度值 P 作为正态曲线下的(概率)面积,转换成具有相等单位的等距量表,即 Z 分数(标准分数)。由于标准分数具有相等单位,属于等距量表。所以,用标准分数作为题目难度的指标,为进一步作难度分析带来了一些方便。18.测验题目的恰当难度和恰当难度分布 测验由多个题目所组成,显然,所有这些题目的难度取值都应该力求恰当,而且这些题目分布状态也应合理。究竟怎样的题目难度与难度分布是合适的,这主要取决于测验的目的与性质。19.常模参照测验、标准参照测验所要求的项目恰当难度及难度分布是什么?为什么?(1) 常模参照测验的项目恰当难度是P值尽量接
37、近0.50,因为只有在这种情况下题目的区分性能最好。 常模参照测验所要求的项目恰当难度分布是,围绕这个点,有一个适当宽的全距。这样做的原因有以下两个:一是测验时,通常希望开始有几个难度较低的题目来稳定被试情绪,末尾用几个难度稍大的题目以便只有少数高水平者才能通过,二是让全部项目都取0.50的难度,通常难以实现。当然,在允许有适当宽的全距的前提下,仍然要力争大多数项目难度取值接近0.50。(2) 标准参照测验的目的是要考察被试的水平是否达到应有要求,因而测验项目的难度,就不应由被试的实际通过率来决定,而应由项目的考核要求是否体现了应有标准或教学目标来决定。无论项目通过率是高还是低,只要体现了应用
38、的标准或教学目标,项目的难度就是合理的恰当的。20.区分度的意义题目区分度是指题目区别被试水平能力的量度,记为 D 。 区分度的分析方法,大约可以归纳成两类:一是外在效标法,即分析被试在测验题目上的得分与外在客观标准上的表现之间的关系。二是内部一致性法。即分析被试在测题上的得分与在整个测验总分之间的一致性程度。 区分度的值域范围在 -1.00 至 +1.00 之间。通常 D 为正值,称作积极区分;D 为负值,称作消极区分;D 为 0 ,称作无区分作用。具有积极区分作用的项目,其 D 值越大,区分的效果越好。21.区分度的计算(1)相关法 区分度的实质是题分与总分的相关,因此,各种计算相关系数的
39、方法都可以用于计算区分度。但具体采用哪一个,应根据题分、总分的数据形式而定。 (2)高低分组法 被试在测验分数序列中两端高分、低分组被认为是两个极端效标组。这两个极端效标组间在特定题目上的反应差别程度可以刻画题目的区分能力。因此,类似于前面谈及应用两端分组的办法来估计题目的难度系数一样,可用高分组在特定题目上的得分率和低分组在相同题目上的得分北之差作为题目区分度的指标(高分、低分组人数比例各占总人数的),被称为鉴别度指数,记为 D 。计算公式为:D = PH - PL 。为计算方便,还可采用公式:22.区分度伪相关的校正对多级记分的论文型试题,求积差相关后剔除伪相关因素做校正,其校正公式为:对
40、二分记分的选择题若有必要作校正,采用点双列相关系数时其校正公式为:23.标准参照测验题目区分度的其他研究方法 (1)以在后测中正确回答某题目的学生的比例减去在前测中正确回答该题目的学生的比例所得之增益数为区分度指标。(柯克斯) (2)以指导组中正确回答某题目的学生的比例减去未指导组中正确回答题目的学生的比例而得之增益数为区分度指标。(克列恩) (3)以前测中错误回答而在后测中正确回答某题目的被试的比例为指标。(罗登巴赫) (4)以在前测中错误回答而在后测中正确回答某题目的被试比例,减去在前测和后测中均错误回答某题目的被试比例而得增益数为区分度指标。(考塞考夫和克列恩)24.教育测量与评价方案的
41、可用性教育测量与评价方案可用性的概念 教育测量与评价方案的可用性是指方案质量性能可靠稳定,针对性强,对于所有被测量与评价的对象是客观公平的,同时在操作上具有可行性、易用性、经济性等特点。 教育测量与评价方案可用性的评价指标 教育测量与评价方案的可用性可以从科学性、公平性、可行性、针对性、区分性和简洁性等六个方面来衡量。25.假设某学者自编了一套神经类型测验,并且在几十万人中进行了试用,试问该测验是否一定有效?这个测验不一定是有效的。这是因为判断一个测验是不是有效的指标是效度。它是指一个测验或量表实际能测出其所要测的心理特质的程度。对于一个自编的神经类型测验可以通过确定它的结构效度和效标关联效度
42、来获得效度资料。该学者可以考察该测验的内容效度,如果该测验所测得的内容或行为范围的定义或解释类似于理论构想的解释,则这个测验具有一定的效度。也可以考察这个测验与已知的能有效测量相同特质的旧测验之间的相关,如果两者相关较高,则说明新测验也有较高的效度。第四章编制教育测验的一般原理与方法测验题目类型与测量功能测验目标与教育目标分类测验蓝图设计与测验编制要领测验题目的分类(1)根据要求被试是选择答案还是自己提供答案来分,测验题目可分为选择型试题和供答型试题。(2)根据被试作答的范围和评分方法来分,测验题目可分为主观性试题和客观性试题。客观性试题客观性试题的功用 客观性试题主要是因为评分客观而得名,它的正确答案在测验前就已准备好,不同评分者各自独立评分,所得结果基本上是相同的。客观性试题一般适用于测量知识的掌握、理解、应用、分析几个层次的教学目标。客观性试题的答案明确,作答简便,因而在限定的时间内测验可以包含足够数量的试题,能保证对知识内容的覆盖。 客观性试题的类型 常用的类型有:(1)选择题 ;(2)是非题; (3)配合题 (4)填空题;(5)简答题。