资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,第一节 测验等值概述,一、测验等值来源于测量实践的需要,二、测验等值的实质,三、测验等值的条件,四、测验等值的一些基本概念,五、测验等值结果的表示方法,一、测验等值来源于测验实践的需要,在我国考试实践中,有许多大规模的考试需要进行测验等值,例如,高等教育自学考试,各专业的各门课程的考试,通常是在同一课程考试大纲下,每年重复测试所谓的平行试卷,人们有理由提出这样的问题,:,某门课程今年考生所得的,60,分是否与去年同一课程考生所得的,60,分等值,?,因为只有在它们等值的情况下,考试对这两年参加同一门课程测验的考生才是公平的。,将不同测验(考察同一特质)上的分数(特质水平值)和项目(试题)参数做出单位系统转换,从而使之能相互比较的过程,叫做测验等值。,二、测验等值的实质,从,本质,上说,测验等值就是通过对考核,同一种心理品质,的多个测验形式作出测量分数系统的转换,进而使得这些不同测验形式的测验分数之间具有,可比性,。,A B C,82 85 80,1,。测验等值中所说的测量分数系统的转换与测验原始分数及导出分数之间的转换是不相同的。,2,。寻找测验等值关系与寻找两测验之间预测关系也是不相同的。,三、测验等值的条件,(,1,)同质性,要求等值的两个测验必须是测量同一心理特质的。,很难想象可以把数学测验的分数等值转换成语文测验的分数,但数学测验分数却可能等值转换成另一次内容难度近似的数学测验分数。,(,2,)等信度,(,3,)公平性,(,4,)对称性,(,5,)样本不变性,等值测验是两个或多个测验之间客观存在的实际关系。,(,6,)可递推性,如果,f(x)=y,g(y)=z,,那么,h(x)=gf(x)=z,上述要求满足极为困难,除了心理现象复杂,测验技术发展不成熟外,测量理论框架本身的局限也是原因。,四、测验等值的一些基本概念,(一)成对出现的概念,1,。经典测验理论与项目反应理论等值,经典测验理论(,CTT,)、项目反应理论(,IRT,)、概化理论(,GT,),区别在于等值时以何种,测验理论,为指导。,2,。测验分数等值与项目参数等值,根据测验等值的,直接操作对象,不同而构成的一对概念。,缺陷:严重依赖样本;两测验上被试分数分布大体相同。,3,。水平等值与垂直等值,根据测验试卷的,难度,和,被试能力分布,是否有差异而区分的一对概念。,进行垂直等值化的原因:,举例:,一套成就测验由不同水平的几个测验构成,每一水平适应于某一年级范围的学生。例如该测验的水平,1,正好适合二年级初的学生,水平,2,正好适合二年级末的学生。然而,对那些在二年级进步较慢的学生而言,水平,2,可能太难而无法得到准确的测验结果。一种可能的解决办法就是对这些学生施测水平,1,。为了解释这些学生的测验成绩,就有必要知道这两种水平的等值分数。这个过程被称为垂直等值化。,四、测验等值的一些基本概念,1,。测验等值设计,定义:,为了寻找不同测验形式之间的等值关系而预先对,数据的采集方法,、,等值实现的途径,、,等值的计算方法,进行周密的设计,称为测验等值设计。,等值设计的最主要原则是要使得所采集的数据能最有效提供不同测验形式的差异信息。,2,。锚测验,定义:在测验等值设计中,有时会采用一组测验试题来关联两个待等值的测验形式,以便寻找两形式的等值关系,这些测验试题被称作为锚测验。,要求:同质性;等信度;长度不小于原测验的,1/5,。,V,3,。数据平滑法,比较实用的两种数据平滑法:,一种叫对数线性平滑法,一种叫,二项式平滑模式,等值完成之后必须对等值结果进行评价。评价的目标是所估等值关系的可靠性与准确性,其指标是等值关系中所包含的等值误差的大小。,关于等值标准误差、等值偏差,理解的时候可以从,随机,等值误差(等值标准误差)和,系统,等值误差(等值偏差)的角度来理解。,注意:以上主要是在,CTT,的范围内对,测验分数等值,所作的探讨。,4,。等值标准误差,测量学把由,抽样,而引起的等值误差称作等值标准误差。,像测验误差不可避免一样,等值误差也是,不可避免,的。,等值标准误差的操作定义:,应用样本数据估计测验形式,X,与,Y,的等值关系时,如果反复抽取等容量的样本,可以求得许多个,X,与,Y,的等值关系,对于,X,的一个固定值,X,0,,会有若干个不等的,Y,0,与之对应,这若干个,Y,0,的标准差就是对应于,X=X,0,的等值标准误差。,从这里可以看出等值标准误差的大小是会随着被等值的具体分数而变化的。,从总的趋势来说,随机等值误差的大小是会随着,样本容量,的增大而减小的。,控制办法:,数据平滑法,测验等值误差是一个变量,随等值分数的大小而变,其,总趋势,是等值分数越趋于分布的两端,等值的标准误差越大。,5,。等值偏差,在等值测验中除了抽样引起等值误差之外,等值处理方法不当也会引起等值误差,测量学上把这种等值误差称为偏差。,系统等值误差,在等值设计和等值关系估计过程中,必须作出若干假设,具备若干等值条件,如果这些假设被违背或者条件不能被充分满足,都会产生系统误差。,例如,设计一中的假设不能满足的情况,等值的系统误差与随机误差不同,系统误差难以量化、难以发现,系统误差的大小也不随样本容量的增大而变小。,据研究,形成等值系统误差的可能原因有四种:,第一种是当应用等值方法的统计假设不满足时,所估等值关系中就会出现系统误差。,第二种原因是当为估计等值关系所设计的数据采集规则未被严格遵循,所估等值关系中也会出现系统误差。,第三种原因是估计等值关系时所用的被试组与实际使用这两测验的被试组有实质性的差异,此时将所估等值关系应用于实测群体,系统误差也就产生了。,第四种原因是某些等值数据处理技术的使用也可能引进系统误差。,五、测验等值结果的表示方法,(一)表列法,应用,最普遍,的等值结果表示方法,(二)公式法,常见的等值结果公式形式,y=Ax+B,式中,x,与,y,处于平等地位,(三)图示法,形象生动但精确度有限,测验等值的工作过程大致包括:,(,1,)进行等值设计,(,2,)贯彻实施等值设计方案,实施测验并实际收集到数据资料;,(,3,)针对实测资料作统计分析,求出等值转换关系;,(,4,)对求得的等值转换关系和整个等值工作进行评价,确定其正确有效性和求出其等值误差。,第二节 测验等值计算的基本方法,一、等百分位等值,二、线形等值,一、等百分位等值,一、等百分位等值,优点:定义直观,也容易理解,缺点:,一是分数等值转换关系的求得依赖于所选用的样本,当抽取的样本改变之后,具体的等值关系就会发生变化,因此样本不变性要求没有得到满足;,二,百分位等值法通常要使用平滑化处理方法,这无疑增大了等值的误差。,二、线形等值,第三节 常用测验等值设计介绍,测验等值设计,定义:为了寻找不同测验形式之间的等值关系而预先对数据的采集方法、等值实现的途径、等值的计算方法进行周密的设计,称为测验等值设计。,第三节 常用测验等值设计介绍,回顾线形等值与等百分位等值的原理,等百分位等值依据的原理:两个分数,一个在测验形式,X,上,另一个在测验形式,Y,上,如果这两个分数对于任何一个被试群体都有相同的百分等级,那么这两个分数就被认为是等值的。,线性等值所依据的原理:两个分数,一个在测验形式,X,上,而另一个在测验形式,Y,上,如果对于任何一个被试群体,它们各自的标准分数相等,这两个分数就被认为是等值的。,设计一 随机分组,每组实施一个测验,一、随机等组设计,样本,测 验,X,Y,设计一 随机分组,每组实施一个测验,这种数据采集设计有一个假设,即,两被试样本的总体分布是相同的。,由于抽样结果来自于同一总体,因此,不考虑其间的抽样误差,这一假设是很容易得到满足的。,1,。线形等值法,Y=Ax+B,A=S,y,/S,x,B=M,y,-AM,x,注意:等值关系直线绝不是线性回归直线,线性回归直线中,直线的,斜率,还必须乘上两变量的相关系数。另外,等值关系关于,x,和,y,是对称的,而回归关系中,x,和,y,是不对称的,因此,,回归关系不是等值关系,。,2,。等百分位等值法,XPR Y,PR=,F,b,+(x-L,b,)f/i,/N100,y=L,b,+(PR/100,N-F,b,)/fi,二、平衡单组设计,样本,测 验,X,Y,前 后,前 后,设计二 随机分组,各测验对每组都实施,设计二 随机分组,各测验对每组都实施,采用这种设计的目的是要防止两个测验形式施测顺序的改变可能引起的等值差异。,采用这种设计的优点是,如果测验顺序对等值结果没有影响,就可以只用一个样本完成测验等值,使得一些被试难寻的测验有可能在较大样本下完成测验的等值。,无法克服练习效应和测验时间太长的缺点。,1,。线形等值法,2,。等百分位等值法,三、锚测验,随机等组设计,样本,测 验,X,V,Y,设计三 随机分组,每组各实施一个测验,锚测验向每组实施,数据采集时,锚测验既用于第一组被试,又用于第二组被试。虽然两组被试总体分布不同,由于施用了一组共同试题,两被试组能力的差异就可以被定量描写,进而可以排除被试组的能力差异而将两待等值的测验形式的等值关系估计出来。,设计三 随机分组,每组各实施一个测验,锚测验向每组实施,要求锚测验必须是两待等值测验的缩影,由锚测验作为桥梁,把测验,X,和,Y,连接起来,缺点是锚测验作为其缩影实际上是难以做到的。,锚测验与待等值测验不论难度上的差异还是内容上的差异都会对等值结果带来误差,尤其是难度上的影响较大。,四、锚测验,非等组设计,样本,测 验,X,V,Y,设计四 非随机分组,每组各实施一个测验,锚测验向每组实施,设计四 非随机分组,每组各实施一个测验,锚测验向每组实施,应用背景:,在实际工作中还会出现这样的情况:既不可能采集一个样本让被试施测两个不同形式的测验,又不可能获得两个总分分布相同的样本来分别接受两个测验的施测。,例子:,两个年度的高考试卷等值,设计四 非随机分组,每组各实施一个测验,锚测验向每组实施,关于锚测验,实际工作中,(,1,),锚题与原测题混合编制施测,,操作比较方便,且锚题测试可能达到相当可靠的程度,但是一旦试卷,“,曝光,”,,锚题就失去作用。,(,2,),锚题独立成卷,,可以提高锚题的安全性,但是测试组织比较复杂,特别是要创设与正式测试相同的测试情境比较困难,但是不管锚题是在卷外还是卷中,锚题部分都应是原测验的一个平行简缩本,也要保证有相当的题量。,设计四 非随机分组,每组各实施一个测验,锚测验向每组实施,1,。线形等值方法,2,。频数估计法(等百分位等值),频数估计法的,关键,是要利用锚测验数据分别估出测验,x,和测验,y,在,合成被试群体,t,上的次数分布。,0,1,2,3,4,5,合计,0,0,1,0,0,0,0,1,1,0,0,1,1,0,0,2,2,0,0,1,2,1,0,4,3,0,0,0,2,4,2,8,合计,0,1,2,5,5,2,15,V X,0,1,2,3,4,5,合计,0,0,2,0,0,0,0,2,1,0,0,2,2,0,0,4,2,0,0,1.5,3,1.5,0,6,3,0,0,0,1,2,1,4,合计,0,2,3.5,6,3.5,1,16,被试组在,x,与,v,上的联合分布,(,f,),被试组在,x,与,v,上的联合分布,(估计),(,g,),3,。链等值法(等百分位等值),X,C,PR,a,(X,C,)=PR,a,(V,C,)V,C,PR,(V,C,)=PR,(Y,C,)Y,C,链等值法不需要总分与锚测验分的联合分布,也不需合成被试组,因此比起频数估计法来显得更简单。但是,链等值法一个明显的不足是往往将一个长测验等值于一个短测验,从而增加了测验误差。,v,为克服上述几种等值方法的缺点,在综合上述几种等值方法优点、不足基础上,陈希镇设计了一种新的等值设计方法,试卷分半组合的单组设计法。,建议阅读:,戴海崎、刘启辉:,锚题题型与等值估计方法对等值的影响,载,心理学报,2002,,,34,(,4,):,367370,
展开阅读全文