1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Outline,第一节 信度的理论,第二节 测量误差的来源,第三节 估计信度的方法,第四节 影响信度系数的因素,第五节 测量的标准误差,第六节 概化理论简介,第一节 信度的理论,一、信度的操作性定义,二、误差,三、测量误差和真分数理论,一、信度的操作性定义,定义:测验结果一致性的判断,(,一个测验可靠性和稳定性的指标,),一个好的测验在多次测量同一个人的时候结果应该是基本一致的,.,真分数模型,经典测量理论假设,,观察分数与真分数之间是一种线性关系,只相差一个随机误差,。,真分数公设,:,X,T+E,(,X
2、是实得分数,,T,是真实的分数,,E,为随机误差或测量的误差),此式,定义,:测量分数是真分数与误差分数之和。,对于同一被试用平行的测验反复多次测验,观察分数的平均值会接近真分数。,真分数理论的,3,个假设,误差分数的平均数是零。,因为误差是随机的,误差分数与真分数相互独立,没有任何相关。,如果有相关,那误差就不成为误差了,两次测量的误差分数之间的相关为零。,因为误差是随机的,所以测量之间没有必然的联系,真分数模型的重要推论,S,X,2,=S,T,2,S,E,2,,测验观察分数的方差等于真分数方差与随机方差值和。,测验的系统误差包含在真分数的变异中,可以分为:与测量目的有关的变异,(S,V,
3、2,),和与测量目的无关的系统误差变异,(S,I,2,),,于是:,S,X,2,=S,V,2,S,I,2,+S,E,2,S,T,2,=S,V,2,S,I,2,测量分数、真分数和误差分数的分布假设,学生 测量分数,=,真分数,+,误差分数,A 3 5 -2,B 17 15 +2,C 16 20 -4,D 23 25,-2,E 27 25 +2,F 25 25 0,G 35 25 +10,H 26 30 -4,I 33 35 -2,J 45 45 0,总数,250 250 0,平均数,25.0 25.0 0,方差,120.2 105.0 15.2,标准差,10.9 10.2 3.9,测量分数,=,
4、真分数,+,误差分数,误差之和为零,测量分数的平均数,=,真分数的平均数,测量分数的方差等于真分数的方差与误差方差之和,(,但标准差并没有如此之关系),因为每一次测量结果中都可能有误差的存在,所以一次测量不一定能准确反映真实的情况,而多次测量可以弥补这一不足,因为误差是随机出现的,所以理论上可以用多次测量结果的平均数来代表真分数,而每一次测量分数与平均数的离差就是误差。一个测验结果的离散度越小说明误差也就越小。,真正在心理测量中真分数是不可能直接获得的。可行的是探查一个测验的误差有多大,然后通过用测验分数与误差分数相减来求取真分数。,四、信度的基本定义,信度(,reliability,):测量
5、结果的稳定性程度。,定义,1,:一组测量分数的真分数的变异数与实得分数的变异数的比率,定义,2,:一组测量分数的真分数的变异数与实得分数相关系数的平方,定义,3,:一个测验与任一个平行测验的相关系数,第二节 误差及误差的来源,定义:与测量目的无关的因素造成了测 验结果的不一致或不准确,误差来源,1.,测验内部引起,1,)题目取样误差,2,)题目用词模棱两可,3,)题目太难,4,)规定的测验时间太短,5,)题型的原因,2.,测验过程引起的,1,)物理环境,2,)主试方面,3,)意外干扰,4,)计分,3.,被试引起的,1,)动机,2,)焦虑,3,)练习,4,)经验,5,)生理因素,第三节 估计信度
6、的方法,一、稳定系数(重测信度)(跨时间的一致性),二、等值系数(复本信度)(跨形式的一致性),三、内在一致性系数,四、评分者信度,一、稳定系数(重测信度),稳定系数(重测信度)(跨时间的一致性):,对同一个测验前后做两次,然后计算两次测 验结果的一致性。,公式一:,公式二:,测验,被 试,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,x,1,16,15,13,13,13,11,10,10,10,9,9,8,8,7,6,x,2,16,15,16,14,12,11,13,12,10,11,11,9,10,8,7,测验,x,x,2,S,x,1,x,2,x,1,158,17
7、84,10.53,2.83,1946,x,2,199,2147,11.67,2.65,统计值,例题,被试,数学,x,阅读,y,x,y,x,2,y,2,xy,1,41,17,+1,-4,1,16,-4,2,38,28,-2,+7,4,49,-14,3,48,22,+8,+1,64,1,8,4,32,16,-8,-5,64,25,40,5,34,18,-6,-3,36,9,18,6,36,15,-4,-6,16,36,24,7,41,24,+1,+3,1,9,3,8,43,20,+3,-1,9,1,-3,9,47,23,+7,+2,49,4,14,10,40,27,0,+6,0,36,0,400,
8、210,0,0,244,186,86,40,21,例题2,例题2计算,采用重测信度需注意之处,两次测验的时间应该是合理的,即既不能太长又不能太短。,相隔太长的时间被试在所测量的特征上可能会发生变化,相隔太短有记忆的效应。,重测信度的使用局限性,1.,被试在这期间自身发生了变化,2.,第一次测验的经验对第二次测验产生影响。如第一次测验产生了焦虑就会影响第二次测验,),3.,记忆的作用,4.,耗时耗精力,被试不好找,二、等值系数(复本信度),一个测验有,A,,,B,两个版本,对一组被试测试,求取两个测验结果的一致性。,两个版本连续施测称为等值性系数,如果两个版本间隔一段时间施测称为稳定性等值系数。
9、三、内在一致性系数,以一次测验的结果来估计测验的信度,用以估计测验内部的一致性。,内部一致性信度的估计方法,(,1,)分半信度,(,2,)库德,理查逊估计法,(,3,)稳定系数,分半信度,把一次测验的结果人为地分成对等的两半,然后计算两半分数之间的相关。,计算分半信度的一个重要之处是如何进行合理的分半。,分半信度只是半个测验的信度,所以需加以校正。,校正公式:,库德,理查逊估计法,库德,理查逊,1937,年提出了一种分析题目间一致性来估计信度的方法,即应用项目统计量来避免任意的两半分法导致产生的误差。常用,KR20,公式。,公式:,例题,测题 答对人数,p q pq,1 15 0.50 0.
10、50 0.25,2 20 0.67 0.33 0.22,3 12 0.40 0.60 0.24,4 10 0.33 0.67 0.22,5 6 0.20 0.80 0.16,pq=1.09,假设一个测验有,5,个测题,施测于一个,30,个人的样本,结果求出标准差为,2.5,稳定系数,稳定系数(克伦巴赫,系数),公式:,内在一致性系数的使用局限性,只适合于同质性的测验,特别不适合于速度测验,(一),2,个评分者:二个评分者分别对一组被试的测验结果加以评分,然后求取两组人分数的一致性;另一种方法是求取完全相同评分的比例。,(二)三个以上评分者对一组被试的测验结果评分,其一致性的求取采用肯特尔和谐系
11、数。,公式:,四、评分者信度,例:三个教师给,6,篇作文评分,将分数值转换为得分等级(最高为,1,)然后求出每一篇作文所得等级之和(,R,i,),教师,1,2,3,4,5,6,A,25,30,27,20,28,32,B,22,26,21,20,25,30,C,15,20,18,14,21,22,1,2,3,4,5,6,A,5,2,4,6,3,1,B,4,2,5,6,3,1,C,5,3,4,6,2,1,R,i,14,7,13,18,8,3,例题计算,R,i,14+7+13+18+8+3,63,R,i,2,811,K,3,N=6,被评对象在,3-7,人时,直接查表,,w,值大于表中数值说明信度是高
12、的,如被评对象超过,7,人,则可计算,2,值,作,2,检验。,2,k(N-1)w df=N-1,不同类型测验的信度要求,标准化智力测验,0.90 (,中等到高的信度,),标准化成就测验,0.85,标准化人格测验,0.80 (,中等到低的信度,),标准化团体测验,0.70,某些投射测验,0.60,(,低信度,),第四节 影响信度的因素,一、测验分数分布的范围对信度的影响,二、测验的长度对信度的影响,三、测验的难度对信度的影响,一、测验分数分布的范围对信度的影响,分数分布的范围越大,信度就越高,分数分布的范围越小信度就越低。,用异质团体的信度来推测同质团体的信度,公式:,例:,二、测验的长度对信度
13、的影响,测题数量越多信度就越高,以已有测题数量所得信度来预测达到某种信度水平需增加的题数,公式:,例:,以增加题目的数量来推测所能达到的信度,公式:,例:,进一步增加题数可达到的信度水平,题数,10,50,100,200,300,400,500,相关系数,0.50,0.83,0.91,0.95,0.968,0.976,0.98,三、测验的难度对信度的影响,难度间接影响信度。,即难度影响测验分数的分布,然后影响信度。,第五节 测量的标准误差,定义:,误差分数分布的标准差,标准误也可用来判断一个测验的稳定性程度。,信度系数是估计整个样本的误差程度,而标准误则是用来估计个人分数中的误差水平。,标准误
14、的计算公式,标准误的用途,确定分数的有效区间,不评价两个同测验分数是否有明显的差异。,标准误用于确定分数的有效区间,测量的标准误:,95%,的置信区间:,(,X-1.96SE,),T(X+1.96SE),例题,一个儿童做韦氏智力测验测得智商,120,,已知韦氏测验的标准差为,15,,信度是,0.95,。,以,95%,的置信水平来确定这个儿童智商分数的有效区间,那么真分数有,95%,的可能性会落在,X+/-1.96 Se,的范围内,即,120+/-1.96 3.35=113-127,。,标准误用于评价两个同测验分数是否有明显的差异,公式:置信度乘以标准误,标准误公式:,例题,一个儿童的韦氏言语智
15、商是,102,,操作智商为,108,,操作智商是否显著地高于言语智商呢?以标准误来检验,先算出差异分数的标准误,两个分数差异大于,9,分以上才有显著性差别,现在,108-102=6,,所以这个儿童的两种智力没有差异。,以图形也可辨认两种分数的差异,以图形也可来辨认两种分数的差异。如果置信区间有重叠,尤其是一半以上重叠,那就不能说一个分数比另一个高。,第六节 概化理论,一、GT的基本原理及概念,二、单侧面随机设计,三、双侧面完全随机交叉设计,概化理论,概化理论是一种能够同时达到区分被试和评估被试真实水平的目的,并较好控制测验误差的现代测量理论。,概化理论控制测验误差的方法主要是通过统计控制技术实
16、现,即把干扰测验分数的无关变量或因素引入测验模型中,然后用统计技术分别估计出这些因素以及因素之间交互作用对测验的影响程度。再通过分离这些影响后,显现出被试水平之间的真正差异,即控制了测验误差。,概化理论的基础,分数方差测量学,:测量误差的来源多种多样,各种误差在误差总量中所占的比也不相同。,测验情境关系,:在不同的测验情境关系下,测量误差的结构不同,误差量也不同。由此测验编制者可以通过改变测验情境关系达到改善测量,降低测量误差的目的。概化理论认为,研究测量必须先研究测验情境关系。,测验情境关系,测验情境关系,是由一个测量目标和若干个测量侧面构成的。,测量目标:测量者希望通过测量用测量数据描绘的
17、那些实体。,测量侧面:除了测量目标方差,其余的都是误差方差,这些误差的来源都称作为测量侧面。,概化理论的基本原理,首先,运用实验设计的思想,分析影响测验分数变异的各种来源;,接着,运用方差分析的技术,分别估计各种变异来源对分数变异所做的贡献(方差分量),然后,根据不同研究目的,分别考察研究目标在测验总分变异中所占的比重。,概化理论的全域分数,经典测量理论,运用,真分数,的概念来刻画被试潜在的心理特质的水平;,概化理论,则提出了,全域分数,的概念来刻画被试潜在的心理特质的水平。,概化理论中,在根据行为样本的表现(得分)估计行为总体的水平时,必须同时指出测量条件样本是否也推论到了各自所对应的条件总
18、体(全域)。,这种,把被试的某种潜在特质水平定义在具体的测量条件全域(范围)上的分数,,就叫,全域分数,概化理论中方差分量的估计,当测验涉及被试和题目两个因素时,可以,将总变异分解为题目效应(题目难度等差异)、被试效应(被试水平差异)以及题目与被试之间的交互作用,概化理论中运用方差分析的思想,在求得各种均方的基础上,根据抽样理论,估计出有关的内在总体方差,即属于各主效应和交互作用的方差分量。,概化系数与可靠性系数,概化理论认为,,测量的误差,包括两种,,其一为相对误差,,,其二为绝对误差,相对误差,是由所有随机误差引起的测量误差,即在概括全域上,被试,p,的样本得分与全体被试样本得分的均值之差
19、值与被试,p,的全域分数与全体被试全域分数均值之差两者之间的差异。即被试在样本上的离均差与他的全域分数的离均差之差值即为测量的相对误差。,绝对误差,是指样本观测值与概化全域上的全域分数之差,即在概括全域上,所有无关因素即因素之间交互作用所致的测量误差都属于绝对误差。,相对误差,Vs.,绝对误差,相对误差,,,类似于,CTT,的信度定义,可以定义概化系数(,G,系数)为测量目标的有效变异占有效变异与相对误差变异之和的比值作为测验的精度指标。由于概括全域可以有多个,概化理论可以针对测验结果概括程度不同而估计出不同多个测量的“信度”。,绝对误差,,,定义了相应的可靠性指数(,系数)为测量目标的有效变异占总变异的比率作为测验的精度指标。实际上与被试无关的变异包括了全部的系统误差和随机误差的变异(包含了,CTT,理论中效度)。,G,研究与,D,研究,概化理论中,G,研究和,D,研究是两个基本步骤。,G,研究,主要的任务是,估出各方差的估计量,,即定量估计观察领域中测量目标的方差以及各个测量侧面所产生的测量误差方差。,D,研究,主要任务是是,决策研究,,根据样本值估计总体真值,同时指出真值所适用的空间或概括全域,以及相应的精度估计值,并且以相对误差和绝对误差的描述方式探讨信度和效度问题。,






