教育测量与评价复习高效笔记.doc

资源描述

（一）研究对象教育测量与评价the Educational Measurement and Evaluation一课程性质教育测量与评价主要是研究对教育现象进行测量和价值判断的理论方法和技术。本门课程分为两大部分：第一教育测量与评价的基本原理与方法；第二教育测量与评价的具体应用。（二）学科性质在课程设置和学科建设中，教育测量与评价可以看成是测量学和评价学内容的整合，而且侧重于教育测量，是综合性教育科学。又可以看成兼容了教育统计教育测量心理测量教育评价教育评估教育督导甚至教育科学研究方法在内的学科群，所以这门学科是一门应用性的学科，但又是一门综合性的课程。在教育学科分类中，教育测量与评价属于研究如何运用方法分析教育活动。总之教育测量学是应用性学科，又是综合性学科。二教学内容组织 1教育测量与评价的基本概念 2教育测量的质量指标 3教育测验的编制与实施，包括各种题型的设计和使用试题编排测评实施和评估等 4教育测量结果的整理和解释 5教育评价方案的编制与实施 6教育评价的方法：很多方法如诊断性评价形成性评价总结性测量与评价等等。综合是用多种评价。 7教育评价的应用，包括课程评价（课程大纲教学设计等）学生评价（老师的评价学生自己的评价同学的评价等）教师评价等方面 8教育质量评价 9现代教育测量与评价的发展趋势三教学目标 1了解教育测量与评价的形成和发展历史。 2掌握教育测量与评价的概念一般原理和方法。 3掌握编制测量量表的方法和步骤。 4掌握评价方案设计以及建立评价指标体系的方法和技巧。 5树立科学的先进的教育测量与评价理念。 6初步具备开展教育测量与评价的能力。四课程学习的重要意义 1教育测量与评价知识是构成现代教育技术教育管理小学教育专业学生必备知识的重要组成部分 2掌握先进的教育测评理念，以促进学生的健康发展五教育测评的学科地位和作用（一）现代教育科学研究的三大领域之一教育基本理论研究教育测量与评价科学研究以及教育发展研究已成为教育科学研究的三大领域。美国教育测量与评价理论研究第一创办了大量有关教育测量与评价方面的研究杂志。第二出版了大量的学术著作与教科书。第三许多学术团体都加盟对教育评价的研究，成立了一些全国性的教育评价协会：全国教育测量委员会全国教育进展评估中心全国教育评价联合会等。国际教育评估协会（IAEA）： 1975年在日内瓦成立，当时有18个国家参加。其宗旨是帮助世界各地的教育机构通过发展和应用评价技术来提高教育质量和促进教育机会均等。。（二）在教育改革中具有重要作用 1教育测量与评价在教育系统中的作用在教育系统运转过程中，除了对教育效果（输出）要进行测量与评价外，还要针对影响教育效果的诸因素（输入）进行客观的分析和评价。教育测量与评价在教育系统中对实现教育目标起着十分重要的作用。 2教育改革常常以教育测量与评价作为突破口学校教育考试制度和评价制度是教育制度的一个组成部分，但教育考试和教育评价具有很强的导向功能。英国“11岁考试” （三）教育改革呼唤教育测评更加科学化教育目标的多样性，必然要求教育测量与评价方法手段的多样化和科学化。由于基础教育在整个结构和提高国民素质中具有特殊的作用，因此，基础教育课程及其考试评价改革尤为紧迫。（四）教育测评是教师的专业素养和能力 1正确评价学生的发展是教师职业能力的重要组成部分。教师需要对学生的性向成就态度兴趣潜能及发展等作出一系列决策和判断，需要采用教育测量与评价多种方法，以弥补教师非正常观察的不足。手段不再是唯一的书面考试，而是测量与非测量的一整套评价技术。目的不再局限于给学生分等级排名次，而是发现其优点长处，指出其缺点不足。测量和评价的指导思想非常重要。指导思想是为了创造适合学生发展的教育环境，而不仅仅是为了选拔适合精英教育的学生。现代教育测量与评价的思想方法对于教师创造性地教学因材施教提高教学质量具有重要作用。 2国外教师教育普遍开设“教育测量与评价”这类课程。在许多经济发达的国家和地区，虽然教师教育模式不一定相同，但对所有想当教师的学生至少要学习十门左右的教育理论课程。第一章教育与心理测量概述第一节教育测量与评价基本问题一教育测量概述 1测量的定义及要素测量的定义：从广义上讲，就是根据某些法则与程序，用数字对事物在量上的规定性予以确定和描述的过程。测量的要素：第一单位。单位是测量的基本要求，具有明确的意义和相等的价值；教育测量的单位常常是“分”，难以达到这个要求。第二参照点。量的计算的起点，一般有两种：绝对零点（理想的）和相对零点（只能加减，不能乘除）；第三量表（具）：能够使事物的特征数量化的数字的连续体。确定了测量单位和参照点并具有取值系统的测量工具。四种测量量表命名量表：用数字代表事物（名称量表）或用数字对事物进行分类（类别量表）；顺序量表：按照事物的大小等级程度而；排列数字的量表。如“名次”；无相等单位，无绝对零点。等距量表：有相等单位，无绝对零点。如“温度” 比率量表：最高水平的量表，具有类别等级等距，并有绝对零点。如“长度和重量”。能进行加减乘除运算。 2教育测量的含义和特点（1）教育测量的含义：就是针对学校教育影响下学生各个方面的发展，侧重从量的规定性上予以确定和描述的过程。广义：对教育现象进行定量化测定的一门教育科学，主要研究对教育或训练效果进行测量的原理与方法。狭义：只对学习结果——知识技能的测量。（2）教育测量的可能性：“凡物的存在必有其量”；“凡有数量的东西都可以测量” （3）教育测量的特点：间接性和推断性；测量对象的模糊性和测量误差的不可避免性；量表具有多样性，结果具有相对抽象性。任何一个测量必须具有明确的目的，教育测量必须为实现教育目的而服务。不能脱离教育目的和教材的要求，任意制定量表，随意进行测量。 3正确使用教育测量 1）慎选测验（2）具备资格（3）内容保密（4）控制误差（5）正确解释和看待结果二关于教育（教学）评价 1评价的含义：广义地讲，评价泛指衡量判断人物或者事物的价值。 2教育评价的概念。当把“评价”一词特别地用于学校教育领域或课堂教学情境时，在一些情况下，“评价”就是“教育评价”的简称。在另一些情况下，指的是教育目标分类中最高层次的认知能力水平——评价。国内外有不同的定义。格兰朗德的观点评价是为了确定学生达到教学目标的程度，收集分析和解释信息的系统过程；评价包括对学生的定量描述和定性描述两方面再加上价值判断。斯塔费尔比姆的观点评价是一种划定获取和提供叙述性和判断性信息的过程。他认为：评价最重要的意图不是为了证明，而是为了改进。美国教育评价标准委员会评价是对某些现象的价值如优缺点的系统调查，为教育决策提供依据的过程。泰勒的观点评价过程在本质上是确定课程和教学大纲在实际上实现教育目标的程度的过程。德雷斯的观点所谓评价，就是决定某种活动目的及程序的价值的过程。日本的桥本重治的观点评价是与教育的目标和价值有明确关系的概念，是按照教育目标和价值观对学生的学习成果及教育计划的效果等进行测量的过程。因此，评价概念的重点在于以教育目标为标准的价值判断。布卢姆的观点在《教育评价》一书中对“评价”作了两种解释：第一种解释在本质上是针对“教育评价”来说的；“评价是系统收集证据用以确定学习者实际上是否发生了某些变化，确定学生个体变化的数量或程度。” 第二种解释实际上是针对教育目标分类来说的。教育目标分认知情感和动作技能三大领域，认知领域的教育目标又分知识领会应用分析综合评价。教育评价包含的共同点 1强调以教育目标为标准的价值判断过程； 2强调用多种方法系统收集资料与信息； 3教育评价的内容既可以是教育计划，也可以是课程；既可以学生的学习结果，也可以是某种教育现象教学活动教育目的或教育程序。 4强调为学生发展和教育决策服务。教育评价的定义按照一定的价值标准和教育目标，利用测量和非测量的种种方法系统地收集资料信息，对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断，并为教育决策提供依据的过程。三概念辨析（一）教育测量与教育评价教育测量是评价的依据，教育评价是测量的解释和具体体现。教育测量与评价是两个不同的概念，教育测量以量化为主要特征的事实判断；教育评价在定性和定量资料基础上做出的价值判断；测量关心的是数据的多少，评价关心的是价值的高低。测量是一种纯客观的过程，是一种单一的活动，而评价是主观与客观的统一，是一项综合的活动。（二）教育评价与教育评估不同学者对评价和评估的关系认识不同。教育评价与评估既有联系又有区别。第一根据《Collins汉英双解词典》，教育评价与教育评估的英语表示不同；第二从目前国内出版的著作来看；第三对“评估”一词的考究；第四从概念及习惯用语上讲。从概念的分析和理解中，我们可以看到教育评价教育评估和教育测量三个概念之间是两两既有联系又有区别，即交叉重叠又相对独立的关系。（三）教育测验与考试测验是测量的工具，用它能引起人的代表性的行为，以便对人的行为特性或心理特性进行测量与评价，是教育测验或心理测验的简称，考试有广义和狭义之分。测验的概念比考试的概念更广泛。在某些情境下，教育测验活动或者考试本身就是一种教育评价活动。教育测验（test）：测量一个行为样本的程序；教育测量的工具考试（examination）：广义的考试泛指人类社会一切测度和甄别人的身心各个方面之群体或个体差异的活动。狭义指由主试根据一定社会的要求，在一定场所，采取一定的方式方法，选择适当的内容，对应试者的德学才识体诸多方面或某方面所进行有组织有目的测度或甄别的活动。教育考试是根据教育内容和目标，选择有代表性的内容与问题，按照一定的方式，对应试者的知识技能等进行测量与评价的过程。考试也是一种教育测验。第二节教育测量与评价的发展简史 1中国是考试制度的发源地 2中国科举制度的世界地位 3教育测量学科的诞生 4教育测量学科的发展 5美国的“八年研究” 6教育测量与评价理论的发展一中国是考试制度的发源地 1考试制度起始于西周时期 2春秋战国时期侧重于日常考察 3两汉时期，考试制度正式建立二中国科举制度的世界地位 1科举制度就是“开科取士”，即国家设立许多科目，通过定期的统一考试选拔人才，这种制度开始于隋炀帝大业二年（606），终结于清朝。 2科举制度在中国历史上延续了1300年，形成了完备的考试制度和独特的考试方法，积累了丰富的经验。 3对西方文官考试制度的建立和现代教育测量与评价的发展起到很重要的作用。中国科举考试虽然对世界文官考试制度有过重要作用，但我国古代对科举制度缺乏教育学心理学统计学哲学等科学视角进行反思与改进。因而还不是现代意义的教育测量与评价科学。三教育测量学科的诞生 11864年，英国人费舍完成《作业量表集》。 21894年始，美国赖斯编写测验，开展相关研究。 31904年，美国桑代克的《精神与社会测量导论》标志着教育测量理论的诞生。桑代克的《精神与社会测量导论》提出假设：“无论什么东西，只要存在的，总存在于数量之中”；美国麦柯尔：“任何东西，存在于数量中，都可以被测量。” 公理：“凡存在的东西必有数量，凡有数量的东西都可以测量“。四教育测量学科的发展 1二十世纪初，美国的教育测量学发展迅速，应用广泛。编制了大量的教育测量。 2心理测验的发展与应用促进了教育测量学的发展，如1905年比纳等人发表的《比纳量表》英国斯皮尔曼的“能力结构二因素学说”以及武德沃斯的第一个标准化人格测验的问世，对教育测验起了一定的促进和导向作用。五美国的“八年研究” 背景：1929-1933年期间，经济危机。美国高中学生人数大量增加，教学理论脱离实际，许多人要求重新协定高中课程方案和教学大纲，以满足社会的需要。美国进步主义教育协会负责人艾钦在1933-1940年间领导“八年研究”。 “八年研究”的基本原则其一应当帮助学生学习什么。其二为了帮助学生达到教育目标，应当提供什么样的学习经验。其三怎么组织学习经验，使这些经验累积效果最大。第四怎么评价教育效果。 “八年研究”的经验其一传统测验是片面的。其二只是关注客观的信度。其三测验是教科书主义。其四对测验或考试的过分依赖必然养成个人主义与被动式的学习态度等。提出尊重儿童的个性兴趣和需要；教材不应脱离生活，进行启发式教育。泰勒提出的两条原理课程编制原理和评价活动原理。确定多元需要的价值目标—用行为表达教育目标—构建合宜的教育情境—选择包括测验在内的多种评价手段—对达标程度做出判断—对学生优缺点进行分析并提出改建措施—修改教育方案，如此循环。泰勒在“八年研究”报告中首次提出了“教育评价”的概念，“教育评价在本质上是确定课程和教学大纲在实际上实现教育目标的程度的过程。评价是一种确定行为实际变化的程度的过程。” 形成了泰勒的“行为目标评价模式”因此泰勒被称为“教育评价之父”。虽然受到了批评，但泰勒的行为目标评价模式思想和方法，在当今世界教育测量与评价领域，以及对课程编制和教育目标管理都有现实意义。第三节：教育测量的类型国内外学者对教育测量与评价的分类，不仅角度不同，而且看法不一。其中格朗兰德的分类具有代表性和启发性，他在《教学测量与评价》中对教育测评进行了分类。一按测评在教学中运用的时机分类 1形成性测量与评价在教学过程中经常实施的，在性质上大致相当于现在的中小学单元测验。形成性测量与评价对于教师以及学生的作用。 2诊断性测量与评价对经常表现出学习困难的学生所作的测量与评价，它的目的是对个人的问题行为及其原因进行诊断。诊断性多半是在形成性测评后实施。 3终结性测量与评价用于教学结束后，在性质上相当于现在学校中所进行的期末考试。其目的有两个：其一是在教学目标之下，检查学生一学期的学业程度；其二是根据终结性测评的结果，评定学业成就，并通知学生家长或记入档案。二按解释测评结果时的参照点分类 1常模参照测量与评价常模参照测量与评价是将被试水平与测验常模相比较，以评价被试在团体中的相对地位的一种测验与评价类型。也就是说，常模参照测量与评价对学生成就的解释采用的是相对的观点。 2标准参照测量与评价将被试的表现与既定的教育目标或教育行为标准相比较，以评价被试在多大程度上达到该标准。测评和教育目标常连在一起，也称目标参照测量与评价。 3潜力参照测量与评价被试实际水平与其自身潜在水平相比较，以评价被试有无充分发挥自身潜力为目的。在强调人性化动态化和个别化的教育评价潮流下，潜力参照测量与评价理应发挥更大的作用。三按测评被试行为表现的性质分类 1最佳行为测量与评价以测量被试的最佳行为表现为目的。凡是以成就或能力的高低行为评价基础的，都属最佳行为测量与评价。 2典型行为测量与评价典型行为测评目的不在测评被试能力的高低，而是测评其是否具备某种典型行为。四按测量与评价的内容分类 1智力测量与评价目的在于测量被试的智力并对被试的智力发展水平和特点作出评价。 2能力倾向测量与评价目的在于测量与评价个人的潜在才能，预测个人能力发展倾向。分为两种：一是关于能力倾向测量与评价；一是特殊能力倾向测量与评价。 3成就测量与评价目的在于测评个人在接受教育或者训练后的成就。常见的两种：一是学科成就测验；一是综合成就测验。 4人格测量与评价也称为个性测量与评价，其目的在于测评被试的人格心理特征。本测量与评价所涉及的内容层面也很多。五教育测量与评价的其他分类（一）按测量对象 1个别测量与评价指的是同一主试在同一时间内只能测量一个被试。主试与被试有更多的交流机会，对于一些特殊的被试，如幼儿文盲等，只能采用个别测量与评价。但是个别测量费时费力，特别主试必须经过严格的训练才能胜任。 2团体测量与评价指的是同一时间内由一位主试测量多位被试。优点是节省时间，可以在短时间内收集到大量的数据，不足是不易有效控制被试的行为，容易产生误差。第二节：教育测量与评价的主要功能教育测评有许多重要的功能，如评定的功能判断的功能选拔的功能反馈的功能教育功能导向的功能威慑的功能预测的功能诊断的功能激励的功能改进学习的功能和改进教学的功能等。根据格朗兰德的分类，主要分为以下几种。一实现教育判断的功能包括测量评定的功能事实判断的功能价值判断的功能问题诊断的功能区分选拔的功能等。二改进教师教学的功能 1了解学生的起点行为摸清学生的学习和发展状况是因材施教的前提。在教学或教育前，教师可以先针对学生实施一次测量，用来评价学生在学习之前已具有的背景知识，以作为有效教学的起点。 2作为改进教学的参考根据教育测量与评价的结果，教师可以明了自己在教学上的缺失，判断教材的可用性，判断教学方法的有效性。测量与评价的结果为教师改进教学提供参考信息。 3作为补救教与学的依据教师可以针对不同学习类型的学习行为特征，以及不同的认知结构缺陷的所在，有针对提出符合个别需要的补救教学的策略与措施。 4确保教学目标的达到根据测评结果，教师可以知道目前的教学情况，是否需要修正目标或改变教学策略，是否需要改换教材以及教法等。三促进学生学习的功能 1激励学生的学习动机 2帮助学生的记忆和促进迁移 3促进学生的自我评价四行使教育管理的功能 1对教师的管理一是教师资格评定；二是教师的教学艺术水平的评定；三是教学管理水平的评定；四是教师的个性评定。 2对目标的管理教育测量与评价是根据教育目标进行的，通过对现状与目标之间的差距进行判断，能有效地促进被测量与评价的对象不断接近预定的目标。 3对过程的管理利用教育测量与评价，可以全面地掌握教育的各种情况，及时发现教育过程中存在的问题，对教育教学任务完成的数量与质量进行控制，为促进提高教育过程的有效性提供科学的依据。心理与教育测量的误差什么是误差误差的来源真分数理论一误差（error）的定义和种类误差是在测量中与目的无关的因素所产生的不准确的或不一致的结果。定义的后半部分从准确性和一致性两方面对误差做了区分。准确性和一致性的关系可以用射击靶环来说明。假设有ABC三支枪，对准靶面中心固定位置后各放9枪，所得结果见图4－1。随机误差：由与测量目的无关的偶然因素引起的变化无规律的误差。大小和方向的变化完全是随机的，无规律可循。系统误差:由与测量目的无关的因素引起的恒定的有规律的误差。稳定地存在于每一次测量中。二测量误差的来源（一）测量工具引起的误差（二）施测过程引起的误差（三）被测对象引起的误差心理测量工具往往是一套量表。当量表在测出人的某种心理特质时，若项目所测的东西与我们所欲测的目的之间出现偏差，则测量会出现误差。 1.施测环境：施测现场的温度光线声音桌面的好坏空间的宽窄都可能产生影响。 2.施测时限: 时限没有严格控制，过宽或过紧都会使测验结果存在误差。 3.主试因素: 主试的年龄性别外表言谈举止表情动作对测验过程的熟悉程度都可能会对测验结果产生一定的影响。 4.意外干扰: 在施测环境复杂，特别是受测者较多时，容易发生意外情况。 5.评分记分 back 1.应试动机受测者对测验的动机不同，会导致不同的作答态度注意力持久性和反应速度，从而影响测验成绩。动机效应在人格测验中也有表现。 2.测验焦虑测验焦虑是指受测者在应试前和测试过程中出现的一种紧张的不愉快的情绪体验。一般出现在能力和成就测验对于人格测验如果主试没有讲清测验目的和出现不合适的表情动作，也会使受测者产生焦虑，尤其对于年龄较小的儿童和本身有焦虑特质的个体。焦虑和作业成绩的关系呈倒形的V字曲线，适度的焦虑可以提高作业成绩，焦虑水平太高和太低都不利于受测者水平的发挥。 3.测验经验当使用一种新的测验形式的时候，由于被测者不熟悉，缺乏测验经验可能会影响测验成绩。 4.练习效应有些测验需要第二次应用，甚至多次应用。比如，在开始一项教学改革前对学生的能力和学习成绩进行前测，过半个学期后进行后测，看看成绩或能力有没有提高。这时就会存在练习效应。在能力测验方面，练习效果的研究大体获得了以下结论：（1）练习对于智力较高者，效果较为显著。（2）着重速度的测验，练习效果较明显。（3）再做同一个测验要比做复本的练习效果显著。（4）两次测验之间的时距越大，练习效果越小，相距三个月以上，练习效果可以忽略不计。（5）一般的平均练习效果，约在个标准差以下，但第二次再测时，练习效果即接近于零。 5.反应倾向被试的独立于测验内容的反应方式也会影响被试的测验成绩。 6.生理变因受测者的疲劳失眠心境等都可以影响测验成绩，心理学研究表明，人的智力情绪体力等都存在着节律性的变化，生物节律会影响测验成绩。三真分数(true score) 真分数：指一种测量工具在测量没有误差时得到的纯正值。（真正水平）操作定义：无数次测量所得结果的平均值。观察分数：实测分数观察分数接近真分数时，就说测量的误差较小。经典测量理论（Classical Test Theory, CTT）的数学模型：经典测量理论假定：实得分数真分数测量误差存在下述线性关系，用公式表示如下： X=T+E （公式4－1）式中X为实得分数或观测分数，T为假设的真分数，E为测量误差。关于测量误差还有如下假设：（1）如果对一个人测量无数次，其误差之和为0，平均误差为0，即（2）误差与真分数相互独立，即（3）一个团体的平均真分数等于该团体中所有被试实得分数的平均值。（4）对于一个团体来说，实得分数真分数和测量误差之间有如下关系：真分数的变异可以分成两个部分：与测验目的有关的变异（有效的变异数Valid Variance）和与测验目的无关的变异(无效的变异数Invalid Variance)，即（公式4－3）式中，是与测量目的有关的变异数，即有效的变异数；是与测量目的无关的变异数，即无效的变异数。将公式4－3代入公式4－2得下列公式：第三章测量的信度第一节什么是信度第二节估计信度的方法第三节影响信度系数的因素第一节：什么是信度一信度的意义二信度系数的作用一信度的意义信度即测验的可靠性，指的是测量的一致性程度。信度受随机误差的影响，随机误差越大，信度越低。在测量学中，信度被定义为：一组测量分数的真变异数与总变异数（实得变异数）的比率。即式中代表信度系数，代表真分数的变异数，代表实得分数的变异数，即总变异数。根据公式3－1，信度还可以表示为：误差变异越小，测量信度越高；误差变异越大，测量信度越低。这个定义有两点要注意：（1）信度是一组测量分数的特性，不是某个测量分数的特性。是对一个人测量多次或对一个群体进行测量得到一组测量分数的特性（2）真分数的变异数不能直接测量，因此信度是一个理论上构想的概念，只能根据一组实得分数进行估计。对于信度系数，还应该注意以下几点：（1）在不同的情况下，对于不同的样本，采用不同的方法会得到不同的信度系数，因此一个测验可能不止一个信度系数。（2）信度系数只是对测量分数不一致程度的估计，并没有指出不一致的原因。（3）获得较高的信度系数并不是心理测量有效的充分条件，只是一个必要条件。二信度的作用 1.评价测验信度系数是衡量测验好坏的一个重要的技术指标。反应随机误差一般能力与学绩测验的信度系数为0.90以上，有的可以达到0.95；标准智力测验的信度系数应达到0.85以上，个性和兴趣测验的信度系数可稍低，一般应达到0.70～0.80，（也有人认为兴趣性格价值观等人格测验的信度系数，通常在0.80～0.85或更高些）。当信度系数小于0.70时，不能用测验来对个人进行评价，也不能用来进行团体间的比较；当信度系数大于0.70时，可用来进行团体间的比较；大于0.85时，可以用来鉴别个人。 2.用来估计个人的测验分数（真分数）由于误差的存在，一个人通过测量得到的分数很难等于真分数。理论上，我们可以对一个人施测无数次，然后求得所得分数的平均数和标准差。在这个假设的分布里，平均数就是这个人的真分数，标准差则为误差大小的指标。在实际工作中，我们用一组被试（人数足够多）两次施测的结果来代替对同一个人反复施测，以估计测量误差的变异数。此时，个人在两次测验中的分数差异就是测量误差。据此可制成误差分数的分布。这个分布的标准差（误差分布的标准差）我们称之为测量的标准误，是表示测量误差的大小的指标，其计算公式为：式中SE表示测量的标准误，即误差分布的标准差；Sx表示一次测量分数的标准差；rxx表示信度系数。我们可以用测量的标准误来估计个人测验的真分数的大小。如果选用95％的可靠性水平（置信水平），即显著性水平（a值）为.05，，真分数有95％的可能落入X ± SE ，即X ±1.96 SE的范围之内，也可以写成X－1.96SE £ T £ X＋1.96 SE，SE则用公式3－4代入。或有5％的可能落入这范围之外。这实际上也表明了再测时分数改变的可能范围。例1，已知WISC-R的标准差为15，信度系数为0.95，对一名12岁的儿童实施该测验后，IQ为110，那么他的真分数在95％的可靠度要求下，变动范围应是多大？注意几点：（1）SE对真分数做的是区间估计，不可能由此得到一个确切的点。这就是说，测验分数不是一个定点，而是具有一定的分布范围。因此，两次测验分数之间存在差异是很正常的。（2）置信水平确定后，估计的精度主要取决于SE，SE越小，范围越小，估计就越精确，反之也然。（3）真分数不能等同于真正能力或心理特质，真分数中包括了系统误差。 3.用来对两种测验分数进行比较来自不同测验的原始分数是无法直接进行比较的，只有将它们转换成相同尺度的标准分数才能进行比较。如，某班期末考试，小明的数学成绩是80分，语文成绩是70分。另外，已知小明所在班级的数学平均成绩是70分，标准差是10分，语文平均成绩是60分，标准差是7分。我们可以用“差异的标准误”来检验差异的显著性。差异的标准误的公式为：为差异的标准误，S为相同尺度的标准分数的标准差，Z分数为1，T分数为10。分别为两个测验的信度系数。先将原始分数化成标准分数，然后将两个标准分数的差异与1.96SEd（0.05显著性水平）进行比较，如果其绝对值大于此值，则差异显著，否则差异不显著。例2，某校五年级进行了两次数学测验，小张第一次考了85分，此次数学测验年级平均分是77分，标准差是8分，此次测验的信度系数是0.84；第二次考了95分，此次数学测验年级平均分是81分，标准差是10分，此次测验的信度系数是0.91；问小张这两次数学测验的成绩是否有显著差异？第二节：信度的估计方法一再测信度二复本信度三等值稳定性系数四内部一致性系数五评分者信度再测信度(Test-Retest Reliability) ，也叫重测信度，也叫稳定性系数。用同一个测验，对同一组被试前后施测两次所得结果的一致性程度。对两次测验分数求相关，其相关系数就叫再测信度。其计算公式（皮尔逊积差相关公式的变式）为：式中X1X2为同一被试的两次测验分数，为全体被试两次测验的平均数，S1S2为两次测验的标准差，N为被试人数。再测法的模式是：施测适当时距再施测例2：假设有一份主观幸福感调查表，先后两次施测于10名学生，时间间隔为半年，结果如表所示，求该测验的重测信度。（为了便于理解和计算，本章估计信度的例子都是小样组，实际应用时应采用大样组。）表5－1 某幸福感调查表的两次测试结果计算再测信度必须注意几个问题：（1）所测量的特性必须是稳定的。当然绝对的稳定是不可能的，但应该是比较稳定的。（2）遗忘和练习的效果基本上相互抵消。在做第一次测验时，被试可能会获得某种技巧，但只要间隔时间适度，这种练习的效果会基本上被遗忘掉。再测信度要考虑时间间隔的问题。到底多长合适呢？一般来说，无论对于那种被试，初测与再测的间隔最好不要超过六个月。（3）再测法适用于速度测验而不适用于难度测验。（4）应注意提高被试者的积极性。 back 复本信度（Alternate Form Reliability），也称等值性系数（Coefficient of Equivalence）用两个平行（等值）的测验对同一组被试施测，得到两组测验分数，求这两组测验分数的相关系数，这就是复本信度。因为这反应了两个测验的等值程度，因此又称等值性系数。计算方法与再测法是一样的。复本信度的模式是：复本A 最短时距复本B 例3：假设用AB两型创造力复本测验对初中一年级10个学生施测。结果见表5－2。请同学们自己计算。表5－2 某创造力复本测验测试结果复本信度应用时应注意以下几点：（1）复本信度的关键在于两个量表必须等值，即必须具有相同的难度区分度长度题型等。（平行测验）（2）两次测验的时距应尽可能短促，以便避免知识的积累练习效应等因素的影响。（3）由于量表的两个复份在许多方面近似，所以信度系数有稍稍偏高的倾向。（4）被试易出现疲劳失去积极性等反应，还会出现迁移。这些称为顺序效应，为了抵消顺序效应，可随机分配一半被试先做复本A再做复本Ｂ，另一半被试先做复本Ｂ再做复本A，以平衡顺序效应。（5）复本法只能减少而不能完全排除练习和记忆的影响。（6）对于许多测验来说，建立复本是相当困难的。 back 三等值稳定性系数等值稳定性系数是用两个平行的（等值的）测验，间隔适当时距施测于同一组被试得到两组测验分数，求这两组测验分数的相关，其相关系数就是等值稳定性系数。等值稳定性系数的模式是：测验A 适当时距测验B 计算方法同稳定性系数和等值性系数。等值稳定性系数也是采用复本对被试施测，但等值性系数的测验要求两次测验的时间间隔尽可能短，而计算等值稳定性系数的两次测验却要求有一个适当的时距。优点：（1）因两次测试有适当的时间间隔，减少了复本法中的练习疲劳效应。（2）只要时间间隔适当，可用于计算稳定性不高的心理特质的测验的信度。注意：等值稳定性信度系数的值一般要比等值性系数和稳定性系数要低。等值稳定性系数是测验信度的最严格的考察，得到的是信度系数的下限。四内部一致性系数利用一次测验所获得的资料来计算信度系数。这样计算出来的信度系数反应的是测验内部的一致性，即测验项目的同质性，叫做内部一致性系数或同质性系数。（一）分半法（分半信度）（二）其它计算内部一致性系数的方法分半信度（Split-half reliability）:分半信度就是将测验题目分成等值的两半，分半求出量表题目的总分，再计算两部分总分的相关系数。分半的方法很多，常见的方法是把一个量表按题目番号分为两半，一半是奇数题，另一半数偶数题。求出每个人的奇数题的总得分和偶数题的总得分，然后求出奇数题总得分和偶数题总得分的相关系数，最后对相关系数进行校正。校正公式有：（1）斯皮尔曼－布朗（Spearman-Brown）公式式中，是两半测验分数的相关系数，为整个测验的信度估计值。采用斯皮尔曼－布朗（Spearman-Brown）公式进行校正时，假定两半测验等值，亦即两半测验具有相同的平均数和标准差。当假定不能满足时，可以采用下面两个公式来估计信度。弗朗那根公式：式中分别为两半测验分数的变异数，为测验总分的变异数。r为信度值。式中，为两半测验分数之差的变异数，为测验总分的变异数。r为信度值。例4：有一个由100题构成的量表施测于10个高三学生。测验一次后，应试者即毕业离校。现在怎样评介测验结果的信度？（1）计算出每个应试者的奇数题总分（X1）和偶数题总分（X2），见表5－3。采用分半信度应注意以下几个问题：（1）若用分半法时，以按奇数题和偶数题分半为宜。（2）在使用斯皮尔曼－布朗公式时要求全体被试在两半测验上的得分的变异数相等。当一个测验不宜分成对等的两半时分半信度不宜采用。（2）当试卷中存在任选题时，不宜采用分半法。速度测验也不宜采用分半法。因为速度测验中试题的难度低，被试得分的多少主要是看答题的多少，分半法易使得分相同，从而夸大分半法的信度估计。（3）如遇到有牵连的项目或一组解决同一问题的项目时，这些项目应放在同一半，否则会高估信度的值。（4）将一个测验分成两半的方法很多（如，按题号的奇偶性分半按题目的难度分半按题目的内容分半等），因此，一个测验可以有多个分半信度值。提供分半信度值时，要说明分半的方法。分半法实际上是对测验内部一致性的一个粗略估计。但对于同一个测验分半的方法是很多的，而且用不同的分半方法求出的分半信度都不一样，因此分半信度不是最好的内部一致性的估计。为了弥补分半法的不足，可以采用其它的方法。其他内部一致性系数（同质性信度） 1.库德－理查逊公式（K－R20公式）库德（Kuder）理查逊（Richardson）针对分半法的不足，提出以项目统计量为转移，利用项目统计量来计算信度。称为K-R20公式。仅适用01记分。式中k表示构成测验的题目数，pi为通过第i题的人数比例，qi为未通过第i题的人数比例，为测验总分的变异数。 2. 库德－理查逊另一公式（K－R21公式）当测验项目难度接近时可以采用库德－理查逊提出的简便公式，称为K－R21公式。式中k表示构成测验的题目数，为测验总分的平均数，为测验总分的变异数。 3.克伦巴赫（Cronbach）的α系数库德－理查逊公式只适用于两级记分的测验，而对多级记分的测验，则可以采用克伦巴赫（Cronbach）的α系数，克伦巴赫的α系数对两级记分的测验也是适用的。其计算公式为：式中，K为测验的题目数，为某一测验题目分数的变异数，为测验总分的变异数。例6：有一种包含6个论文式题目的测验，对5个应试者施行，得分见下表5－5，试求该测验的信度。表 5-5 被试在测验上的得分五评分者信度评分者信度（Scorer Reliability）：随机抽取部分试卷，由两个或多个评分者独立按评分标准打分，然后求其间的相关，所得的相关系数即为评分者信度。评分者信度的计算： 1.评分者为两个人时若是连续变量的评分，且分布是正态则计算皮尔逊积差相关系数（可用计算机直接计算）。若是等级评定或虽是等距或等比的数据但分布非正态，则计算斯皮尔曼等级相关。斯皮尔曼等级相关公式：式中D为各对偶等级之差，

展开阅读全文