资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第十章,测评工具的评价技术与优化方法,主要内容,第一节 测评项目的分析技术,第二节 测评的信度,第三节 测评的效度,第一节测评项目分析技术,一、项目的难度分析,二、项目的区分度分析,三、项目难度与区分度的联系,一、项目的难度分析,(,一,),项目难度的概念,项目难度,顾名思义即测评项目的难易程度。一个测评项目,如果大多数人都能通过或者得高分,说明其难度小,;,反之,如果大多数人都通不过或得分很低,说明其难度大。项目难度一般是针对正误明显或有明确计分方式的能力测验,对于无正误、好坏之分的人格测验、性向测验等非能力测验,不适用难度这一说法。,(,二,),项目难度的计算方法,1.,二分法计分项目的难度分析,所谓二分法计分,是指测评项目的答案明确,非对即错,计分只有两种结果,:,对或错,(,通过或不通过,),。此种题型以是非判断题、二选一选择题为典型。其难度多采用通过率来计算,:,P=,P,为项目通过率,;R,为回答正确或通过该项目的人数,;N,为全体参与测试的人数。,(,二,),项目难度的计算方法,1.,二分法计分项目的难度分析,当参与项目测验的人数非常多时,有一种较为便捷的计算方法。即将所有受测者在整个测验上的总分从高到低进行排列,然后截取两端,即总分靠前的,27%,作为高分组,总分靠后的,27%,作为低分组,分别计算高分组和低分组在某个单项目上的通过率,计算公式如下,:,P=,式中,PH,为总分排名靠前,27%,的高分组在该项目上的通过率,;PL,为总分排名靠后,27%,的低分组在该项目上的通过率,;P,为该项目的通过率。,(,二,),项目难度的计算方法,2.,多个备选项项目的难度分析及校正公式,但是由于多个选项的存在,允许存在猜测作答,所以仅仅简单以通过率计算难免草率。为平衡猜测对难度的影响,可使用下面的校正公式,:,CP=,式中,P,表示按二分法难度分析计算出来的通过率,;K,为项目中备选项的个数,;CP,为校正后的通过率。显然,CPP,更接近项目的实际难度。,二、项目的区分度分析,项目区分度,(,也叫鉴别度,),是指测验项目对受测者的素质差异或心理特性的区分能力。区分度高的测验项目,能将不同水平的受测者有效区分开来,即在该项目上得分高的人水平较高,在该项目上得分低的人水平较低。而区分度低的项目则不能达到此种效果。这种区分作用正是大多数测评孜孜以求的,特别是在选拔式考试中,为了选出最优秀的人才,就是要把优秀人才与普通大众区分开来。,(,二,),项目区分度的计算方法,第一步,将所有受测者在整个测验上的总分从高到低进行排列。,第二步,截取总分最靠前的,27%,作为高分组,总分靠后的,27%,作为低分组。,第三步,分别计算高分组和低分组在某个单项目上的通过率,(,通过率的计算公式见本章前文项目的难度分析部分,),。,第四步,高分组在该项目的通过率减去低分组在该项目的通过率,得到该项目的区分度,计算公式如下,:,D=PH-PL,式中,PH,为总分排名靠前,27%,的高分组在该项目上的通过率,;PL,为总分排名靠后,27%,的低分组在该项目上的通过率,;D,为该项目的区分度。,D,值越大,区分度越高。,三、项目难度与区分度的联系,要想得到较好的区分度,项目的难度要适中。理想的状况,是项目的通过率为,0.5,时,排名靠前的一半全部通过,而排名靠后的一半全部通不过,此时的区分度达到最大值,1,。也就是说,:,当项目的难度越接近,0.5,项目的区分度越高,;,反之,项目的难度过大或过低,也即越接近,0,或,1,时,项目的区分度越低。,第二节测评的信度,一、信度的定义,二、信度的评价方法,三、提高信度的方法,一、信度的定义,所谓信度,就是指值测评结果的可靠性、稳定性和一致性。,二、信度的评价方法,(,一,),重测信度,(,二,),复本信度,(,三,),分半信度,(,四,),内部一致性信度,(,五,),评分者信度,(,一,),重测信度,1.,重测信度的定义,所谓重测信度,是指用同一个测评工具,对同一组受测者进行重复测评所得的结果与最初测评结果的一致性程度。,(,一,),重测信度,2.,重测信度的计算,重测信度反映的是两次测验结果的稳定程度,所以重测信度又称稳定系数,用前后两次结果的相关系数来表示,计算公式如下,:,式中,n,表示两次参与测评的同一组人员的人数,;X,表示各人初次测评所得的结果,;Y,表示重测所得到的结果,;r,是两次结果之间的相关系数也即重测信度。,(,二,),复本信度,1.,复本信度的定义,所谓的复本信度,就是指同一组受测者在两个平行,(,等值,),的测验上所得分数的相关程度,也即两个测验之间的等值程度,因此有人又把复本信度称为等值系数。,(,二,),复本信度,2.,复本信度的计算,第一步,准备或制定两个等值的测评工具,A,和,B,。,第二步,先用,A(,原测评,),对受测者进行测评。,第三步,紧接着或间隔一段时间后用,B(,复本,),对该组人员进行测评。,第四步,计算两种工具所测结果的相关系数,公式如下,:,n,表示两次参与测试的同一组人员的人数,;X,表示各人在,A,测评中所得到的结果,;Y,表示各人在,B,测评,(,复本,),中所得到的结果,;r,是两种工具所测得的结果之间的相关系数即重测信度。,(,三,),分半信度,1.,分半信度的定义,顾名思义,分半就是先要把一个测评的所有项目分成对等两半,而分半信度就是指受测者在这两半上得分的一致性程度。需要特别指出的是,把测评内容分成两半,只是测评研究人员在分析信度时的人为划分,受测者只需参加一次测评。分半信度实际上考查的是测评工具的内部一致性程度,不是考查两份测评的一致性程度,也不涉及测评工具在时间跨度上的稳定性。,(,三,),分半信度,第一步:将测评项目按题号的奇偶性分成两半,编号为奇数的项目与编号为偶数的项目各一半;,第二步:统计每个参与测评人员在奇数项目和偶数项目的得分总和;,第三步:计算奇数项目和偶数项目的积差相关系数,r,(,r,的计算公式形式上与重测信度和复本信度的计算公式相同);,第四步:所得到的,r,是测评内部两半之间的相关程度,由于分半后题目的数量减半,使测验题目变短,从而使信度人为地降低,因此应该进行修正。整个测评的分半信度要通过斯皮尔曼,-,布朗校正公式得到。具体如下:,上式中,r,表示两半所得分数的积差相关系数,表示分半信度。,(,四,),内部一致性信度,1.,内部一致性信度的定义,鉴于分半信度的不足,内部一致性信度指的是测评内部所有题目之间,(,不再人为拆分成两半,),的一致性程度,也称同质性信度。,如果测评的内部一致性信度较高,则表明各个题目不仅所测查的特质变量同质,(,如某智力测评问卷中每个题目都是考查受测者的图形推理能力,),而且受测者在各题上的得分存在较高的正相关。比如,假设某数学能力测评试卷共三道题,一个受测者在第一题得分较高,在第二、三题得分也较高,说明这三道测评题目的一致性高。,(,四,),内部一致性信度,2.,内部一致性信度的计算,库德,理查逊公式,上式中,,K,表示测评包含的题目数;表示第,i,道题目通过的人占总数的比率(通过率);表示第,i,道题目上没有通过的人占总数的比率;为所有题目通过率与未通过人数比例乘积的和;为测评总分的方差;为内部一致性信度估计值。,(,四,),内部一致性信度,2.,内部一致性信度的计算,克伦巴赫,系数,上式中,,K,表示测评包含的题目数;为全体测评者在第,i,道题目上得分的方差;为各道题目方差的和;全体测评者整个测评所得总分的方差,,为克伦巴赫系数。,(,五,),评分者信度,1.,评分者信度的定义,评分者信度即同一测评中不同评分者之间对受测者所判分数的一致性程度。,(,五,),评分者信度,2.,评分者信度的计算,(1),如果只有两个评分者,则只需计算两个评分者对受测者所判分数的相关系数即可。此时计算公式与重测信度以及复本信度的计算公式相同。,式中,n,表示参与测试的人数,;X,表示评分者之一甲所评分数,;Y,表示另一评分者乙所评分数,;r,是两个评分者所给分数之间的相关系数。,(,五,),评分者信度,2.,评分者信度的计算,如果评分者有多个(三个或三个以上),且评分为连续分数时(如一般考试中的百分制评分),一般采用克伦巴赫系数法,公式与前述同。通常,各位评分者是按等级打分(即使不是按等级打分,但是也可以人为把分数分成几个等级),此时采用肯德尔和谐系数来计算评分者信度。具体计算公式如下:,上式中:为第,i,个被测评者所得到的评分等级之和(即所有评分者针对第,i,个员工所评等级之和);,K,为评分者人数;,N,为被测评者的人数。,三、提高信度的方法,(1),从测评工具方面来讲,测验的项目长度和难度都对信度有重要的影响。一般来讲,测验越长,项目越多,信度值越高。但是也要防止项目数量超出受测者的承受限度,从而导致疲劳和厌烦现象。而当题目过难或过易时,受测者所得分数过于集中,(,偏低或偏高,),范围狭窄,从而降低信度。,三、提高信度的方法,(2),从测评者方面来讲,测评者本身的知识、经验以及偏好都会影响信度。所以有必要严格和规范评分标准,并事先对测评者进行培训,使来自测评者个人因素的干扰降至最低。,三、提高信度的方法,(3),从受测者方面来讲,受测者的样本和受测者的身心状态也会对信度造成影响。一般来讲,受测者的团体内部越不相同,其分数的分布范围越大,信度系数也越高。另外,受测者样本偏差会导致不同群体之间水平的不同,从而与题目难度的因素一起影响到测评的信度。,三、提高信度的方法,(4),从测评情境方面来讲,周围的光线、噪音、温度、设备、面积都有可能影响测评的信度。所以标准化的测验不仅要求工具的标准化,在环境上也力求一致并使每位测评参与者都感觉舒适。,第三节测评的效度,一、效度的定义,二、效度的评价方法,三、提高效度的方法,四、信度与效度的关系,一、效度的定义,效度是一个测验能够测量其所要测量的东西的程度或或者简单地说是指一个测验的准确性。一个测验的效度不止一个。效度指标主要包括:效标关联效度;内容效度;构想效度。,二、效度的评价方法,(,一,),内容效度,(,二,),构想效度,(,三,),效标效度,(,一,),内容效度,1.,内容效度的定义,内容效度是指测评所包含项目的具体内容或行为样本代表其所要测评特质的程度,即项目内容的代表性。,一个测评要具备较好的内容效度必须具备两个条件,:,一是确定好内容范围,保证测评项目的内容在此范围内,;,二是测评项目的内容在已界定的内容范围内具有足够的代表性。,(,一,),内容效度,2.,内容效度的评价方法,(1),专家判断法。,判断一个测评是否具有较高的内容效度,最常用的方法是聘请有关专家对测评题目与原先界定的测评范围作符合性和代表性判断,即判断题目是否符合原先确定的范围、是否代表所要测评的特质。,专家判断法尽管比较方便有效,但也有其局限。局限主要来自专家本身,由于知识背景、经验水平以及对测评内容和目标理解上的差异,不同的专家给出的判断可能不尽相同。,(,一,),内容效度,2.,内容效度的评价方法,(2),经验法。,一般来说,同一测评的结果会随着受测者知识和经验的增加而提高。比如,:,某一学科测验,如果高年级的成绩要好于低年级,则说明该测验具有较好的内容效度。再如,:,操作技能测试中,如果进厂多年的熟练工成绩好于进厂时间短的新手,也说明其具有较好的内容效度。,(,一,),内容效度,2.,内容效度的评价方法,(3),复本法。,克伦巴赫认为,:,内容效度可以通过一组受测者在同样内容范围的两个测验复本上所得分数的相关程度来作估计。如果两者相关度高,则一般可以推论其具有较好的内容效度,(,但也不排除两个复本存在同样的偏差,);,如果两者相关度低,则说明两个测验中至少有一个内容效度较低,(,但是无法确定究竟是哪个低,),。鉴于复本法的上述缺陷,实践中一般较少使用。,(,一,),内容效度,2.,内容效度的评价方法,(4),重测法。,重测法多用于教学或训练测评中。受测者从未或很少接触与测评相关的内容,初次测评成绩必然较低。如果经过学习或培训后,再重新测评一次,如果成绩提高幅度很大,说明测评对教学或培训的内容效度较高。,(,二,),构想效度,1.,构想效度的定义,构想效度,(,又称结构效度、构思效度,),是指一测验实际测到的所要测量的理论构想和特质的程度,或者说它是指测验分数能够说明心理学理论的某种结构或特质的程度。,所谓构想或结构,是指心理学理论所涉及的假设的抽象概念或特质,如智力、焦虑、外向、动机等,它们无法直接测评,必须通过具有操作定义的项目来侧面反映。如对员工进行信用评价时,很难直接把握信用的测量方法。但是通过调查其长期偿还住房或汽车贷款的情况、信用卡的使用记录,便可以推知他的信用状况。,(,二,),构想效度,2.,构想效度的评价方法,(1),单个测评内部分析法。所谓单个测验内部分析法,主要指通过研究测评内部的结构,(,如测评的内容及题目间的关系,),来分析该测评工具的构想效度。,(,二,),构想效度,2.,构想效度的评价方法,(1),单个测评内部分析法。,第一步,确定测评的内容效度。内容效度可以为我们提供测评的内容范围和样本,可通过其来定义工具所要测量的构想特质的性质,换句话说,内容效度能为构想效度提供有关证据。,第二步,对受测者的测评反应过程进行因素分析。通过观察受测者的操作情况或询问他们的解题过程,进行统计学分析,确定是哪些因素影响了反应,从而确定该测评是否真正测到所要测量的心理或行为特质。,第三步,考查测验的同质性。通过对受测者在各个项目上的得分与总分的相关度计算,以及考查系数的计算,可以推测出测评所测到的是单一特质还是多种特质,从而确定测评构想效度的高低。,(,二,),构想效度,2.,构想效度的评价方法,(2),多个测验之间比较法。通过对所要评价效度的测评工具,A,与其他测评工具进行比较,找出它们所测的共同特质,从而确定,A,构想效度的高低。具体有下面,3,种方法,:,1),相容效度。确定构想效度最简单的方法莫过于对所要评价的测评工具,A,与已经过检验、具有良好效度的同类权威测评工具,B,进行相关度分析。如果,A,与,B,相关度高,说明,A,与,B,所测的是同一种特质。如许多新编制的智力测验为使其得到世人认可,大多会与举世公认的斯坦福,比纳量表进行比较,以证明自身的有效性。,(,二,),构想效度,2.,构想效度的评价方法,(2),多个测验之间比较法。,2),区分效度。假定测评工具,A,与已知构想效度较高的测评工具,C,测量的不是同一特质,而且各自测量的特质之间相关度低,那么可以比较,A,和,C,所得结果的相关系数,如果,A,和,C,相关度低,说明两者所要测查的特质具有较好的区分性,;,如果两者存在较高的相关度,说明测评工具,A,未能有效测出所要测评的特质,效度较低。用此种方法确定的效度称区分效度。如果两个测评是测量同一特质的,即使使用不同的方法进行测量,它们之间的相关性也应该很高,这种方法叫做聚合效度,又称求同效度。坎贝尔等人提出用多特征,多方法矩阵来求聚合效度,此方法也用于估计区分效度。,(,二,),构想效度,2.,构想效度的评价方法,(2),多个测验之间比较法。,2),区分效度。假定测评工具,A,与已知构想效度较高的测评工具,C,测量的不是同一特质,而且各自测量的特质之间相关度低,那么可以比较,A,和,C,所得结果的相关系数,如果,A,和,C,相关度低,说明两者所要测查的特质具有较好的区分性,;,如果两者存在较高的相关度,说明测评工具,A,未能有效测出所要测评的特质,效度较低。用此种方法确定的效度称区分效度。如果两个测评是测量同一特质的,即使使用不同的方法进行测量,它们之间的相关性也应该很高,这种方法叫做聚合效度,又称求同效度。坎贝尔等人提出用多特征,多方法矩阵来求聚合效度,此方法也用于估计区分效度。,(,二,),构想效度,2.,构想效度的评价方法,(2),多个测验之间比较法。,3),因素效度。考查构想效度最常用的方法是通过对一组测评工具进行因素分析,找到影响测评分数的共同因素,每个测评在共同因素上的负荷量即每个测评与共同因素的相关。用此种方法确定的效度称作因素效度,(,因素分析属于高级统计分析,在此不作具体介绍,具有一定统计学基础且对此感兴趣者可查阅相关教程,),。,(,三,),效标效度,1.,效标效度的定义,效标效度又叫效标关联效度、实证效度,指的是一个测评对处于特定情境中的个体行为进行估计的有效性。换句话说,一个测评是否有效,应该以实践的效果来作为检验标准。例如,用操作能力测评测验机械工人,如果在测验中得分高的在日后工作中机械操作水平确实也高于测验中低分组的实际水平,那么可以说该测评具有较好的效标效度。,(,三,),效标效度,(1),同时效度。同时效度的效标资料是与测评分数同时搜集的。如大学入学考试可以用中学成绩作效标。同时效度常用的效标是在校的学业成绩、教师的等级评定、临床检查等。在人力资源测评中,用一个新编的职业测评来评定员工,在分析测评结果时,可以把这批员工当前的工作成绩作为外在效标。如果测评分数与当前工作成绩相关度高,说明其同时效度较高,以后可以继续使用该职业测评来了解员工近期的工作表现。,(,三,),效标效度,(2),预测效度。预测效度的效标资料需要过一段时间才可搜集到。此种效度对人员的选拔和安置工作非常重要。常用的效标是专业训练的成绩、实际工作的表现等。例如,在人力资源测评中,为评定某职业测评的预测效度,可以先使用这个测评来测验企业新招聘的员工,然后等这批员工工作一段时间后,搜集他们的工作成绩作为效标,计算测评结果与工作成绩之间的相关程度。如果相关系数较高,说明其预测效度较好,今后可以继续用它来预测员工的工作成绩,也就是说可以使用它来进行员工招聘。,提高效度的措施,(1),精心编制测评量表,选取适当的效标。,编制测评工具时,除了要明确指导语、控制难度和项目数量外,还要注意效标的选取。由于效标的选取与效度的验证有着直接的关系,它是验证效度的参考标准之一,它的选取在很大程度上影响着测评效度的高低。因此在选取效度时,要做到用正确的方法选取合适的效标。第一,要选取适当的效标,测评的目的不同,检验效度时所选用的效标也不同,要严格按照测评的具体情况如目的、情境、时间和方法选取效标,避免受偏见或成见的影响,;,第二,要保证效标和测验结果的独立性,保证效标具有较高的信度。,提高效度的措施,(2),创设标准的测评环境,控制无关因素的干扰。,在测评中,往往有很多导致误差的无关因素,这些因素对测评的影响很大。而环境的不适,可能会使受测者紧张、焦虑,从而发挥不出应有水平,因此应尽量让所有受测者的测验环境保持安静、舒适,排除环境因素的干扰。,提高效度的措施,(3),使用多重变量测量方法,正确使用有关公式。,提高测量信度和效度的另一个有效办法是使用多重变量测量方法,即用多个变量对同一概念进行测量。因为单一变量往往具有较大的特异性,与所测量的概念相关程度较低,而且可能与其他概念有更密切的联系,所以容易形成较大的测量误差。采用多重变量可以使由于单一变量的特异性造成的偏差互相抵消,从而达到均衡。而凡是涉及计算公式的,都要满足一定的假设前提,故在选择时需要特别注意。,四、信度与效度的关系,一般来说,信度是研究效度的一个必要的前提,没有信度,效度不可能单独存在。也就是说,一项研究不可能没有信度却具有效度。信度是效度的必要条件,但不是充分条件。对一个测评来讲,信度和效度的具体关系如下,:,(1),信度低,效度不可能高。如果测量的数据不可靠,就不可能有效地说明所研究的对象。,(2),信度高,效度未必高。如在测评中准确地获得了反映受测者智力水平的数据,却未必能够很好地说明他的发展潜力。,(3),效度低,信度可能低也可能高。,(4),效度高,信度也必然高。,
展开阅读全文