资源描述
1Measurement Reliability 第四章第四章 测验的信度测验的信度2Measurement Reliability导学导学信度是评价信度是评价测验优劣测验优劣的重要指标,了解信度的相关知识是的重要指标,了解信度的相关知识是编制优质高效测验的前提。通过本章的学习我们可解决编制优质高效测验的前提。通过本章的学习我们可解决三个问题:三个问题:一、明确信度的理论定义及操作定义;(难点)一、明确信度的理论定义及操作定义;(难点)二、掌握几种常模参照测验的信度估计方法;(重点)二、掌握几种常模参照测验的信度估计方法;(重点)三、了解影响信度的因素,在信度估计时尽量避免由此三、了解影响信度的因素,在信度估计时尽量避免由此造成的误差造成的误差;提高信度的方法。;提高信度的方法。3Measurement Reliability第一节第一节 信度概述信度概述一、什么是信度一、什么是信度 1.1.信度的理论定义信度的理论定义 信度即测量结果的信度即测量结果的稳定性稳定性、一致性一致性或或可靠性可靠性。是。是用同一测量工具反复测量某人的同一种心理特质,用同一测量工具反复测量某人的同一种心理特质,所得结果的一致性程度。所得结果的一致性程度。4Measurement Reliability2.信度的统计定义信度的统计定义定义定义1:信度是被试团体真分数方差与实得分数方差之比:信度是被试团体真分数方差与实得分数方差之比定义定义2 2:信度是被试团体真分数与实得分数相关系数的平方:信度是被试团体真分数与实得分数相关系数的平方定义定义3 3:信度是一个测验:信度是一个测验X X(A A卷)与它的任意一个平行测验卷)与它的任意一个平行测验(B B卷)的相关系数卷)的相关系数 rxx代表测量的信度,代表测量的信度,S2T代代表真分数的变异数,表真分数的变异数,S2x代代表是实得分数的变异数,即表是实得分数的变异数,即总变异数。总变异数。5Measurement Reliabilityl由于真分数的方差无法统计,可转化为:由于真分数的方差无法统计,可转化为:rxx=(S2x-S2E)/S2x=1-S2E/S2x 该定义有两点需要注意:该定义有两点需要注意:第一、信度指的是一组测验分数或一列测量的特性,而第一、信度指的是一组测验分数或一列测量的特性,而不是个人分数的特性;不是个人分数的特性;第二第二 、真分数的变异数是不能直接测量的,因此信度是、真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,只能根据一组实得分数做出估一个理论上构想的概念,只能根据一组实得分数做出估计。计。6Measurement Reliabilityl信度只受随机误差的影响。随机误差越大,信度越低。l信度不受系统误差的影响。7Measurement Reliability二、信度指标二、信度指标1.信度系数与信度指数信度系数与信度指数l大部分情况下,信度是以大部分情况下,信度是以信度系数信度系数为指标,信度系数为指标,信度系数又以又以相关系数相关系数表示,即用同一被试样本所得的两组资表示,即用同一被试样本所得的两组资料的相关系数作为测量一致性的指标,称作信度系数料的相关系数作为测量一致性的指标,称作信度系数(rxx)信度系数是表示测量结果的信度系数是表示测量结果的稳定性程度稳定性程度的指的指标。标。lrxx=r2XT=s2T/s2xlrXT信度指数,它的平方就是信度系数信度指数,它的平方就是信度系数8Measurement Reliability信度系数是表示测量结果的稳定性程度的指标。记为:信度系数是表示测量结果的稳定性程度的指标。记为:信度系数的值域:信度系数的值域:?没有百分之百可靠的测量,因此,没有百分之百可靠的测量,因此,rXX=1只是理只是理论上的值,实际当中是不会存在的。论上的值,实际当中是不会存在的。相关系数的值域是相关系数的值域是-1,+1,信度系数的值域:,信度系数的值域:0,1,为什么?,为什么?0,19Measurement Reliability经典测量理论的信度系数经典测量理论的信度系数l重测信度稳定性系数l复本信度等值性系数、等值性与稳定性系数l内部一致性系数分半信度、同质性信度l评分者信度肯德尔和谐系数10Measurement Reliability对信度系数要注意的几点:对信度系数要注意的几点:l1.在不同情况下,对不同样本,采用不同方法在不同情况下,对不同样本,采用不同方法会得到不同的信度系数,因此一个测验可能不会得到不同的信度系数,因此一个测验可能不只一个信度系数。只一个信度系数。l2.信度系数只是对测量分数不一致程度的估计,信度系数只是对测量分数不一致程度的估计,并没有指出不一致的原因。并没有指出不一致的原因。l3.获得较高的信度系数并不是心理测量追求的获得较高的信度系数并不是心理测量追求的最终目的,它只是迈向目标的一步,是使测量最终目的,它只是迈向目标的一步,是使测量有效的一个必要条件。有效的一个必要条件。11Measurement Reliability信度系数要达到多高才可以接受呢?信度系数要达到多高才可以接受呢?l最理想的是最理想的是r rxx xx 1.00,1.00,但办不到但办不到l研究结果显示,能力,成就测验都在研究结果显示,能力,成就测验都在0.900.90以上,有的还可以上,有的还可以达到以达到0.950.95以上以上;人格测验、兴趣、态度、价值观等都在人格测验、兴趣、态度、价值观等都在0.800.800.850.85。l一般原则:一般原则:l当当r rxxxx0.700.70时,测验不能用于对个人作出评价或预测,时,测验不能用于对个人作出评价或预测,而且不能做团体比较;而且不能做团体比较;l当当0.70r0.70rxx xx 0.850.85时,可用于团体比较;时,可用于团体比较;l当当r rxxxx0.850.85时,才能用来鉴别或预测个人成就或作为。时,才能用来鉴别或预测个人成就或作为。l另一原则:新编的测验信度应该高于原有的同类测验或相另一原则:新编的测验信度应该高于原有的同类测验或相似测量似测量12Measurement Reliability测验类型测验类型 信度系数信度系数 低低中中高高学业成就测验学业成就测验0.660.920.98学术能力测验学术能力测验0.560.900.97特殊能力倾向测验特殊能力倾向测验0.260.880.96人格测验人格测验0.460.850.97兴趣测验兴趣测验0.420.840.93态度测验态度测验0.470.790.98注:表中数据来源,Lewis R.Aiken:Psychological testing and assessment(eighth edition),Allyn and Bacon,Inc,1994.13Measurement Reliabilityl2.标准误标准误l信度系数仅表示一组测量的实得分数与真分数的符合程信度系数仅表示一组测量的实得分数与真分数的符合程度,但并没有直接指出个人测验分数的变异量。由于误度,但并没有直接指出个人测验分数的变异量。由于误差存在,一个人所得分数有时比真分数高,有时比真分差存在,一个人所得分数有时比真分数高,有时比真分数低,有时二者相等。理论上我们可以对一个人施测无数低,有时二者相等。理论上我们可以对一个人施测无数次测验,然后求得分数的平均数和标准差。这个平均数次测验,然后求得分数的平均数和标准差。这个平均数就是这个人的真分数,而标准差就是测量误差大小的数就是这个人的真分数,而标准差就是测量误差大小的指标。但在实际上是行不通的。然后,我们可以用一组指标。但在实际上是行不通的。然后,我们可以用一组被试两次测量结果来代替对同一人的反复施测,被试两次测量结果来代替对同一人的反复施测,以估计以估计测量误差的变异数。测量误差的变异数。14Measurement Reliabilityn此时,个人在两次测验中的分数差异就是测量误差。此时,个人在两次测验中的分数差异就是测量误差。据此可制成误差分数的分布。这个分布的标准差(据此可制成误差分数的分布。这个分布的标准差(误误差分布的标准差差分布的标准差)我们称之为)我们称之为测量的标准误测量的标准误,是表示是表示测量误差的大小测量误差的大小的指标,其计算公式为:的指标,其计算公式为:SESE表示测量的标准误,即误差分布的标准差;表示测量的标准误,即误差分布的标准差;SxSx表示实表示实得分数的标准差;得分数的标准差;r rxxxx表示信度系数。表示信度系数。15Measurement Reliability三、信度的作用三、信度的作用(信度与测验分数的解释)(信度与测验分数的解释)1.信度是测量过程中所存在的随机误差大小的反映信度是测量过程中所存在的随机误差大小的反映 (解释真实分数与实得分数的相关)(解释真实分数与实得分数的相关)l信度系数可以解释为:总的方差中有多少比例是由真实分信度系数可以解释为:总的方差中有多少比例是由真实分数的方差决定的,也就是测验的总变异中真分数造成的变数的方差决定的,也就是测验的总变异中真分数造成的变异占百分之几。异占百分之几。l例如,例如,r=0.9r=0.9时,实得分数时,实得分数9090的变异来自真分数,的变异来自真分数,1010来自误差。来自误差。r=1r=1呢?呢?r=0r=0呢?呢?l信度系数从信度系数从0.000.001.001.00,代表了从缺乏信度到完全可信的,代表了从缺乏信度到完全可信的所有状况所有状况l信度系数也告诉我们误差有多大信度系数也告诉我们误差有多大16Measurement Reliability2.确定信度可以接受的水平确定信度可以接受的水平l最理想的是最理想的是rxx 1.00,但办不到但办不到l研究结果显示,能力,成就测验都在研究结果显示,能力,成就测验都在0.90以上,有的以上,有的还可以达到还可以达到0.95以上以上;人格测验、兴趣、态度、价值观人格测验、兴趣、态度、价值观等都在等都在0.800.85。l一般原则:一般原则:l当当rxx0.70时,测验不能用于对个人作出评价或预时,测验不能用于对个人作出评价或预测,而且不能做团体比较;测,而且不能做团体比较;l当当0.70rxx 0.85时,可用于团体比较;时,可用于团体比较;l当当rxx0.85时,才能用来鉴别或预测个人成就或作时,才能用来鉴别或预测个人成就或作为。为。l另一原则:新编的测验信度应该高于缘由的同类测验或另一原则:新编的测验信度应该高于缘由的同类测验或相似测量相似测量17Measurement Reliability3.解释个人分数的意义解释个人分数的意义l作用:其一是估计真实分数的范围;其二是了解实作用:其一是估计真实分数的范围;其二是了解实得分数再测时可能的变化情形。得分数再测时可能的变化情形。这就是这就是测量标准误测量标准误的应用。的应用。lX1.96SE T X1.96 SE真分数的估计区间为:真分数的估计区间为:19Measurement Reliabilityl我们可以用测量的标准误来估计个人测验的真分数的大小。l如果选用95的可靠性水平(置信水平),即显著性水平(a值)为.05,真分数有95的可能落入X SE,即X 1.96 SE的范围之内,也可以写成X1.96SE T X1.96 SE,SE则用公式代入。或有5的可能落入这范围之外。这实际上也表明了再测时分数改变的可能范围。lX1.96SETX+1.96SE20Measurement Reliabilityl例:在一个智力测验中,某个被试的IQ为100,这是否反映了他的真实水平?如果再测一次,他的分数将改变多少?l已知该智力测验的标准差为15,信度系数为.84,则其IQ的测量标准误和可能范围为:l 21Measurement Reliabilityl注意几点:注意几点:l(1 1)SESE对对真真分分数数做做的的是是区区间间估估计计,不不可可能能由由此此得得到到一一个个确确切切的的点点。这这就就是是说说,测测验验分分数数不不是是一一个个定定点点,而而是是具具有有一一定定的的分分布布范范围围。因因此此,两两次次测测验验分分数数之之间间存存在在差差异是很正常的。异是很正常的。l(2 2)置置信信水水平平确确定定后后,估估计计的的精精度度主主要要取取决决于于SESE,SESE越小,范围越小,估计就越精确,反之也然。越小,范围越小,估计就越精确,反之也然。l(3 3)真分数不能等同于真正能力或心理特质,真分数)真分数不能等同于真正能力或心理特质,真分数中包括了系统误差。中包括了系统误差。22Measurement Reliability4.比较不同测验分数的差异比较不同测验分数的差异l来自不同测验的原始分数是无法直接进行比较的,只有将来自不同测验的原始分数是无法直接进行比较的,只有将它们转换成相同尺度的标准分数才能进行比较。它们转换成相同尺度的标准分数才能进行比较。l这种比较包括两个人不同分数的差别和同一被试在两个测这种比较包括两个人不同分数的差别和同一被试在两个测验上的差别。验上的差别。SEdSEd为差异的标准误,为差异的标准误,S S代表两个测验使用的标准差,这代表两个测验使用的标准差,这个标准差要相同,因为只有在两个分数具有相同的单位个标准差要相同,因为只有在两个分数具有相同的单位时才可以比较。时才可以比较。r rxxxx、r ryyyy分别为两个测验的信度系数。分别为两个测验的信度系数。23Measurement Reliabilityl例;某被试在韦氏成人智力测验中言语智商为例;某被试在韦氏成人智力测验中言语智商为102,操作智,操作智商为商为110。已知两个分数都是以。已知两个分数都是以100为平均数,为平均数,15为标准为标准差的标准分数。假设言语测验和操作测验的分半信度分别为差的标准分数。假设言语测验和操作测验的分半信度分别为0.87和和0.88。问其操作智商是否显著高于言语智商呢?。问其操作智商是否显著高于言语智商呢?l首先计算出差异分数的标准误:首先计算出差异分数的标准误:l在统计上,经常要求两个分数的差异程度达到在统计上,经常要求两个分数的差异程度达到0.05的显著的显著水平,才能承认不是误差的影响。因此,将差异标准误水平,才能承认不是误差的影响。因此,将差异标准误(7.5)乘以)乘以1.96,结果为,结果为14.7,这表明个体在韦氏测验,这表明个体在韦氏测验两半得分的差异高于大约两半得分的差异高于大约15分,才能达到分,才能达到0.05显著水平。显著水平。上述被试的差异分数上述被试的差异分数110-102=8是不显著的。是不显著的。24Measurement Reliability课堂练习课堂练习l1.某个被试的测验某个被试的测验IQ=100,再测的分数可能是多少?再测的分数可能是多少?(已知测验的标准差为(已知测验的标准差为15,信度系数为,信度系数为0.90).l2.被试在韦氏智力测验中言语智商为被试在韦氏智力测验中言语智商为102,操作智商,操作智商为为110。两个分测验都是以。两个分测验都是以100为平均数,为平均数,15为标准为标准差的标准分数。假设言语测验和操作测验的分半信度分差的标准分数。假设言语测验和操作测验的分半信度分别为别为0.93和和0.94.问其操作智商是否显著高于言语智问其操作智商是否显著高于言语智商?商?9595的可能在的可能在90.690.6109.4109.4之间之间25Measurement Reliability课后作业课后作业l1.某智力测验的信度某智力测验的信度r=0.75,某次施测得到标准差为,某次施测得到标准差为3.00,则该测验的测量标准误是多少,若某被试得分,则该测验的测量标准误是多少,若某被试得分为为100,试估计其真分数,试估计其真分数1-=.95的置信区间的置信区间l2.某测验的信度为某测验的信度为0.75。要使该测验的信度达到。要使该测验的信度达到0.90,须增加多少题目(原测验长度的多少倍),须增加多少题目(原测验长度的多少倍)?l3.一个包含一个包含10个题目的测验,信度为个题目的测验,信度为0.50,若增至,若增至50个题目,其信度将是多少?个题目,其信度将是多少?l4.书本书本P5758第第2、3题题26Measurement Reliability第二节第二节 信度的评估方法信度的评估方法一、重测信度一、重测信度二、复本信度二、复本信度三、内部一致性信度三、内部一致性信度四、评分者信度四、评分者信度27Measurement Reliability一、重测信度一、重测信度(Test-Retest ReliabilityTest-Retest Reliability)(一)含义(一)含义也叫也叫再测信度再测信度l1.重复测验:重复测验:同一量表,同一被试群体,在不同时间,同一量表,同一被试群体,在不同时间,两次施测。两次施测。l2.重测信度:重测信度:用同一测验,对同一组被试前后两次施测,用同一测验,对同一组被试前后两次施测,两次测验分数之间的相关程度(用相关系数来表示)就两次测验分数之间的相关程度(用相关系数来表示)就是再测信度。是再测信度。l3.重测信度实质重测信度实质:主要考察了一个测量工具是否能够保:主要考察了一个测量工具是否能够保证在不同时间测量结果的一致性,表示测验结果的稳定证在不同时间测量结果的一致性,表示测验结果的稳定性。故称之为性。故称之为稳定性系数稳定性系数(CoefficientofStability)l4.形式:形式:施测施测A1适当时间适当时间再施测再施测A228Measurement Reliabilityl一般来说,重测的时间间隔越短,那么各种施测情一般来说,重测的时间间隔越短,那么各种施测情境的变化就越小,重测信度系数就会越大。境的变化就越小,重测信度系数就会越大。l重测信度系数较大时,说明该测量工具前、后两次重测信度系数较大时,说明该测量工具前、后两次的测量结果比较一致。结果具有较好的跨时间上的的测量结果比较一致。结果具有较好的跨时间上的稳定性。稳定性。29Measurement Reliability(二)评估方法重测信度的大小可以通过计算测量工具的重测系数或重测信度的大小可以通过计算测量工具的重测系数或稳定性系数来标志。具体来说,就是求取同一组被试稳定性系数来标志。具体来说,就是求取同一组被试在两个不同时间施测同一个测量工具所得结果分数的在两个不同时间施测同一个测量工具所得结果分数的相关系数。相关系数。即积差相关法,即积差相关法,是皮尔逊的积差相关系数是皮尔逊的积差相关系数 rxx30Measurement Reliabilityl例:例:10名学生两次测验的成绩如下,求该测验的重测信度?名学生两次测验的成绩如下,求该测验的重测信度?第第1次成绩:次成绩:86 58 79 64 88 58 55 82 32 75第第2次成绩:次成绩:88 56 89 76 85 68 47 76 45 7531Measurement Reliability(三)重测信度应满足的条件(三)重测信度应满足的条件l所测量的特征必须是稳定的所测量的特征必须是稳定的l遗忘与练习的效果是相同的遗忘与练习的效果是相同的l两次实测期间被试的学习效果没有差别两次实测期间被试的学习效果没有差别l一般用于速度测验或人格测验,不用于难度测一般用于速度测验或人格测验,不用于难度测验验32Measurement Reliability(四)使用重测信度时需要注意的问题(四)使用重测信度时需要注意的问题1.两次施测时间间隔的长短会影响重测信度系数估计值的两次施测时间间隔的长短会影响重测信度系数估计值的大小,大小,因此,在报告重测信度系数时应该因此,在报告重测信度系数时应该报告间隔的时间报告间隔的时间长度。长度。2.应该间隔多长时间?应该间隔多长时间?应该根据已有的相关研究结论考虑应该根据已有的相关研究结论考虑所测心理特质本身的稳定性程度,以确定前后两次施测时所测心理特质本身的稳定性程度,以确定前后两次施测时间的间隔究竟应该多长比较合适时,不应该随便选择间隔间的间隔究竟应该多长比较合适时,不应该随便选择间隔时间的长短。对于年幼儿童,两次施测的时间间隔应该短时间的长短。对于年幼儿童,两次施测的时间间隔应该短于年龄大些的被试;于年龄大些的被试;智力测验的间隔一般在智力测验的间隔一般在6个月左右。个月左右。3.应注意提高被试的积极性应注意提高被试的积极性33Measurement Reliability一个测验就是一个重测信度吗?一个测验就是一个重测信度吗?34Measurement Reliability(五)重测信度的优缺点(五)重测信度的优缺点1.1.优点:优点:能提供有关测验结果是否随时间而变异的资能提供有关测验结果是否随时间而变异的资料,可作为预测受测者将来行为的依据。料,可作为预测受测者将来行为的依据。2.2.缺点:缺点:容易受练习和记忆的影响,前后两次施测间容易受练习和记忆的影响,前后两次施测间隔的长短必须适度隔的长短必须适度;第一次尝试所发现的错误第一次尝试所发现的错误也可能导致第二次反应的变化而增加误差变异。也可能导致第二次反应的变化而增加误差变异。35Measurement Reliability二、复本信度二、复本信度(Alternate-form raliability)l(一)含义(一)含义l1.复本测验:复本测验:指在指在题目内容、题型、题数、难度、区分题目内容、题型、题数、难度、区分度、指导语、时限度、指导语、时限等方面都一致(相等)的两份或多份等方面都一致(相等)的两份或多份测验,又叫平行测验。测验,又叫平行测验。l即:用不同题目测量同样内容而且测验结果的平均值和即:用不同题目测量同样内容而且测验结果的平均值和标准差都相同的两个测验。标准差都相同的两个测验。l任何测验只是所有可能题目中的一份取样(行为样本),任何测验只是所有可能题目中的一份取样(行为样本),所以可编制许多平行的等值测验(复本)。所以可编制许多平行的等值测验(复本)。l2.复本信度复本信度:同一组被试在复本测验上所得结果的相关同一组被试在复本测验上所得结果的相关系数。系数。36Measurement Reliabilityl3.实质:实质:反映了由于题目的不同以及时间间隔所导致的反映了由于题目的不同以及时间间隔所导致的测量误差。测量误差。l4.形式:形式:等值性系数等值性系数 稳定性与等值性系数稳定性与等值性系数37Measurement Reliability(二)复本信度估计方法(二)复本信度估计方法等值性系数(同一时间内连续施测)等值性系数(同一时间内连续施测)稳定性和等值性系数(相隔一段时间施测)稳定性和等值性系数(相隔一段时间施测)l式中,式中,A A 、B B为同一被试在两个测验复份为同一被试在两个测验复份A A、B B上的分数,上的分数,A A、B B为为A A、B B两型测验的标准差,两型测验的标准差,N N为被试人数。为被试人数。38Measurement Reliabilityl例:例:假设用假设用A A、B B两个创造力复本测验对初中一年级两个创造力复本测验对初中一年级1010个学生施测。结果见个学生施测。结果见下表。请计算复本信度。下表。请计算复本信度。测验测验被试被试1 12 23 34 45 56 67 78 89 91010A A 2020191919191818171716161414131312121010B B2020202018181616151517171212111113139 939Measurement Reliability(三)复本信度要符合的条件(三)复本信度要符合的条件1.各份测验各份测验l测量的是同一种心理特性。测量的是同一种心理特性。l具有相同的内容和形式。具有相同的内容和形式。l题目不应重复。题目不应重复。l题目数量相等,难度和区分度大体相同。题目数量相等,难度和区分度大体相同。l分数分布(平均数和标准差)大致相等分数分布(平均数和标准差)大致相等。2.2.被试有条件接受两个测验被试有条件接受两个测验40Measurement Reliability1.1.两次测验的时间间隔要适当,若太短,由于测验太相两次测验的时间间隔要适当,若太短,由于测验太相似被试可能厌倦,若太长可能又会因新的学习而产生似被试可能厌倦,若太长可能又会因新的学习而产生干扰。干扰。2.应该尽量在测试结果报告中,详尽地说明两次测试的应该尽量在测试结果报告中,详尽地说明两次测试的时间间隔、测试顺序安排、测试过程中被试的有关测时间间隔、测试顺序安排、测试过程中被试的有关测验经历等。验经历等。3.3.稳定性与等值性系数是测验信度的最严格的考察,得稳定性与等值性系数是测验信度的最严格的考察,得到的是信度系数的下限。到的是信度系数的下限。(四)注意事项(四)注意事项41Measurement Reliability(五)使用复本信度的局限(五)使用复本信度的局限1.1.只能减少但不能完全消除练习和记忆的影响;只能减少但不能完全消除练习和记忆的影响;2.2.由于第二个测验只改变了题目的具体内容,已经掌握的解由于第二个测验只改变了题目的具体内容,已经掌握的解题原则可以很容易地迁移到同类问题。题原则可以很容易地迁移到同类问题。3.3.对许多测验来说,建立复本是十分困难的。对许多测验来说,建立复本是十分困难的。4.4.被试易出现疲劳、失去积极性等反应。这些称为顺序效应,被试易出现疲劳、失去积极性等反应。这些称为顺序效应,为了抵消顺序效应,可随机分配一半被试先做复本为了抵消顺序效应,可随机分配一半被试先做复本A A再做再做复本,另一半被试先做复本再做复本复本,另一半被试先做复本再做复本A A,以平衡顺序,以平衡顺序效应。效应。42Measurement Reliability三、内部一致性信度三、内部一致性信度测验内部(或测题之间)的一致性信度。测验内部(或测题之间)的一致性信度。包括:包括:分半信度和同质性信度分半信度和同质性信度(一)分半信度(一)分半信度 1.含义含义l分半信度分半信度(Split-Half Reliability):指的是将一个:指的是将一个测验分成测验分成对等的两半对等的两半后,所有被试在这两半上所得分数后,所有被试在这两半上所得分数的一致性程度。的一致性程度。2.实质实质l分半信度评价了测验两个随机组成部分的题目是分半信度评价了测验两个随机组成部分的题目是否测量了相同的心理特质。否测量了相同的心理特质。43Measurement Reliability3.估计方法估计方法l皮尔逊积差相关皮尔逊积差相关lA、B为同一被试分别在两个半测验为同一被试分别在两个半测验A、B上的分数,上的分数,A、B为为A、B两半测验的标准差,两半测验的标准差,rhh为分半信度。为分半信度。l计算分半信度先要对测验分半。不同的分半法可能会得计算分半信度先要对测验分半。不同的分半法可能会得到不同的信度值,需要校正。到不同的信度值,需要校正。44Measurement Reliability4.分半信度的校正公式之一分半信度的校正公式之一l由于在用分半测验得分计算相关系数时,测验题量被缩由于在用分半测验得分计算相关系数时,测验题量被缩短,信度系数需要通过以下这个公式对分半相关系数进短,信度系数需要通过以下这个公式对分半相关系数进行矫正而得到。行矫正而得到。为两个分半测验之间的相关系数,为两个分半测验之间的相关系数,为完整长度测验的为完整长度测验的信度系数估计值。信度系数估计值。45Measurement Reliabilityl例:例:100个题目,分半信度个题目,分半信度r=0.70,整个测验的估计,整个测验的估计信度是多少?信度是多少?lrxx=20.7/(1+0.7)=0.8246Measurement Reliability4.分半信度的校正公式之二分半信度的校正公式之二47Measurement Reliability4.分半信度的校正公式之三分半信度的校正公式之三lRulon公式中分子方差反映了由于题目不同等条件带公式中分子方差反映了由于题目不同等条件带来的误差方差,他与总方差之比反映了误差方差在总方来的误差方差,他与总方差之比反映了误差方差在总方差中所占的比例。差中所占的比例。48Measurement Reliability5.分半的方法分半的方法l1)按题目序号分半,分奇数题和偶数题)按题目序号分半,分奇数题和偶数题l2)按题目难度分半)按题目难度分半l3)按题目的内容分半。)按题目的内容分半。l如遇到有牵连的项目或一组解决同一问题的项目时,这如遇到有牵连的项目或一组解决同一问题的项目时,这些项目应放在同一半,否则会高估信度的值。些项目应放在同一半,否则会高估信度的值。49Measurement Reliability6.适用的前提条件适用的前提条件l1)通常在只能施测一次或没有复本的情况下使用。)通常在只能施测一次或没有复本的情况下使用。l2)斯皮尔曼布朗公式时要求全体被试在两半测验上)斯皮尔曼布朗公式时要求全体被试在两半测验上得分的变异数(方差)要相等。得分的变异数(方差)要相等。l3)实践中对测验分半时,为了尽量减少无关因素的影)实践中对测验分半时,为了尽量减少无关因素的影响,通常需要考虑题型、题分、题目测试先后顺序等因响,通常需要考虑题型、题分、题目测试先后顺序等因素的平衡问题。素的平衡问题。50Measurement Reliabilityl4)当一个测验无法分成对等的两半时,分半信度不宜)当一个测验无法分成对等的两半时,分半信度不宜使用。使用。速度测验也不宜采用分半法。因为速度测验中试速度测验也不宜采用分半法。因为速度测验中试题的难度低,被试得分的多少主要是看答题的多少,分题的难度低,被试得分的多少主要是看答题的多少,分半法易使得分相同,从而夸大分半法的信度估计。半法易使得分相同,从而夸大分半法的信度估计。l5)同一测验通常会有多个分半信度,同一测验通常会有多个分半信度,提供分半信度值提供分半信度值时,要说明分半的方法。(时,要说明分半的方法。(2020个题目的测验可得到个题目的测验可得到92,37892,378分半信度!)分半信度!)51Measurement Reliabilityl例:有一个由例:有一个由100100题构成的量表施测于题构成的量表施测于1010个高三学生。测验个高三学生。测验一次后,应试者即毕业离校。现在怎样评价测验结果的信一次后,应试者即毕业离校。现在怎样评价测验结果的信度?度?l(1 1)计算出每个应试者的奇数题总分()计算出每个应试者的奇数题总分(X X1 1)和偶数题总分)和偶数题总分(X X2 2),见表。),见表。得得分分被被 试试1 12 23 34 45 56 67 78 89 91010X X1 1 3838373738384141404036363838393940403535X X2 2373737373636393939393434383839393939363652Measurement Reliabilityl分半法实际上是对测验内部一致性的一个粗略估计。但分半法实际上是对测验内部一致性的一个粗略估计。但对于同一个测验分半的方法是很多的,而且用不同的分对于同一个测验分半的方法是很多的,而且用不同的分半方法求出的分半信度都不一样,因此分半信度不是最半方法求出的分半信度都不一样,因此分半信度不是最好的内部一致性的估计。为了弥补分半法的不足,可以好的内部一致性的估计。为了弥补分半法的不足,可以采用其它的方法。采用其它的方法。53Measurement Reliability(二)同质性信度(二)同质性信度(Homogeneity reliability)l1.含义:同质性指测验的所有题目测量的是同一种心理含义:同质性指测验的所有题目测量的是同一种心理特质,表现为各个题目得分之间有较高的相关,相关越特质,表现为各个题目得分之间有较高的相关,相关越高则同质性越强(高则同质性越强(是正相关还是负相关?相关为零则表是正相关还是负相关?相关为零则表明了什么?明了什么?)。)。l同质性信度就是一个测验所测内容或特质的相同程度。同质性信度就是一个测验所测内容或特质的相同程度。l即:即:题目之间的一致性程度题目之间的一致性程度l2.同质性信度的计算公式和校正公式同质性信度的计算公式和校正公式l估计所有可能的分半信度系数的平均数,作为完整测验估计所有可能的分半信度系数的平均数,作为完整测验的内部一致性最佳估计值。的内部一致性最佳估计值。54Measurement Reliability2.同质性信度计算方法同质性信度计算方法l0、1记分的同质性信度记分的同质性信度55Measurement Reliability2.同质性信度计算方法同质性信度计算方法l非非0、1记分的同质性信度记分的同质性信度公式中,公式中,k k是测验题目个数,是测验题目个数,S S2 2i i是被试在题目是被试在题目i i上得分的方差,上得分的方差,S S2 2t t是被试测验总分方差。是被试测验总分方差。l克龙巴赫a系数56Measurement Reliabilityla值的计算步骤:值的计算步骤:P52注意:注意:la值是所有的分半信度的平均值值是所有的分半信度的平均值la值只是测量信度的下界的一个估计值。即值只是测量信度的下界的一个估计值。即a值大,测值大,测量信度必定高;但量信度必定高;但a值小时,却不能断定测量信度不高。值小时,却不能断定测量信度不高。57Measurement Reliability3.同质性信度的解释同质性信度的解释l同质性信度高,说明测验主要测的是某一单个心理特质,同质性信度高,说明测验主要测的是某一单个心理特质,实测结果就是该特质水平的反映;实测结果就是该特质水平的反映;l同质性信度低,说明测验结果可能是几种特质的综合反同质性信度低,说明测验结果可能是几种特质的综合反映。映。具体如何解释?具体如何解释?测量单一特质与同质性信度的关系?测量单一特质与同质性信度的关系?58Measurement Reliability四、评分者信度(四、评分者信度(Scorer Reliability)1.含义:含义:是指两个或多个评分者给同一批人的答卷进行评分的一是指两个或多个评分者给同一批人的答卷进行评分的一致性程度。致性程度。2.估计方法:估计方法:l两个评判者的评分信度:随机抽取若干份答卷,由两两个评判者的评分信度:随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相个独立的评分者打分,再求每份答卷两个评判分数的相关系数(积差相关或等级相关)。关系数(积差相关或等级相关)。l多个评判者的评分信度:用肯德尔和谐系数来估计多个评判者的评分信度:用肯德尔和谐系数来估计59Measurement Reliabilityl评分者信度的计算:评分者信度的计算:l1.1.评分者为两个人时评分者为两个人时l若若是是连连续续变变量量的的评评分分,且且分分布布是是正正态态则则计计算算皮皮尔尔逊逊积积差差相关系数(可用计算机直接计算)。相关系数(可用计算机直接计算)。lA A 、B B分别为两个评判者在同一道题上所给的分数,分别为两个评判者在同一道题上所给的分数,A A 、B B分别为两个评判者所评分数的标准差,分别为两个评判者所评分数的标准差,r rxxxx为为评分者信度评分者信度60Measurement Reliabilityl若若是是等等级级评评定定或或虽虽是是等等距距或或等等比比的的数数据据但但分分布布非非正正态态,则计算斯皮尔曼等级相关。则计算斯皮尔曼等级相关。l斯皮尔曼等级相关公式:斯皮尔曼等级相关公式:l(公式(公式512)l式式中中D为为各各对对偶偶等等级级之之差差,是是各各D平平方方之之和和,N为为等等级级数目。数目。61Measu
展开阅读全文