收藏 分销(赏)

第五章-测量效度.doc

上传人:快乐****生活 文档编号:2647406 上传时间:2024-06-03 格式:DOC 页数:10 大小:79.54KB
下载 相关 举报
第五章-测量效度.doc_第1页
第1页 / 共10页
第五章-测量效度.doc_第2页
第2页 / 共10页
第五章-测量效度.doc_第3页
第3页 / 共10页
第五章-测量效度.doc_第4页
第4页 / 共10页
第五章-测量效度.doc_第5页
第5页 / 共10页
点击查看更多>>
资源描述

1、(完整word)第五章-测量效度第五章测量效度第一节效度概述一、 什么是效度(一)效度的概念效度是指一个测验或量表实际能测出其所要测的心理特质的程度。例如,一个小学生数学测验的成绩若同时受到其数学和语文能力的影响(如,有的人看不懂题意等)则认为实际测到其所要测的特质(数学能力)的程度不高,因而它是个效度不高的数学测验.(二)对效度概念的理解1、效度是一个相对概念。这种相对性表现在两个方面:(1)效度是相对于一定的测量目的而言的。因为效度是指实测结果与所要测查的特质之间的吻合一致性程度,因此,一个测验或量表是否有效主要是看它是否达到了测量目的。 测量某一特质有效的量表,若用它来测量另一种特质,则

2、必然会无效或效度极低.例如,测量身高很有效的钢尺若用它来测量体重则必定无效。又如,人的测量智力很有效的量表若是用来测量性格则必定是效度不高的.(2)心理特质是较隐蔽的特性,只能通过他的行为表现来进行推测,因此,心理测量不可能达到百分之百的准确,而只能达到某种程度上的准确.不过,由于任何一个量表的编制都有其目的,所以在正常情况下,一个量表的效度也不会为零。例如,一个数学测验,无论其文字表达如何艰深,它总能测到一定的数学能力,即总会有一定的效度,而不会效度为零。(3)判断一个测量是否有效要从多方面收集证据。表面上看来,测量的效度就是实际测量的结果与我们所要测量的心理特性的吻合一致性程度,获取效度的

3、办法也就是拿实测结果与心理特性来比较。然而,心理特性是我们要测的东西,是未知的,通常也是比较抽象和隐蔽的。因此,不能把它直接拿来与结果比较,而必须先从多种角度把这种特性描述清楚。由于描述心理特性的角度可以是理论上的,也可以是实践上的,途径很多,因此,获取测量效度的途径也是多样的。例如,智力测验是否测得了人的智力,我们就可以从理论上做逻辑分析,也可以从他在工作、学习中的实际表现等许多方面加以证实. (4) 效度和信度一样,也是指一列测量的特性,也是一个构想概念.在测量理论中,效度被定义为:在一列测量中,与测量目的的有关真实变异数(由所要测量的变因引起的有效变异)与总变异数(实得变异数)的比率,即

4、:效度=这里,代表测量的效度系数,代表有效变异数,代表总变异数.一个测验的效度表明,在一组测验分数中,有多大比例的变异是由测量的变因引起的。根据公式=+,可以得到信度与效度的关系如下(一) 信度高是效度高的必要而非充分条件当随机误差的变异()减小时,真实分数的变异数增加,测验信度()随之提高。信度的提高只给有效变异数()的增加提供了可能,至于是否能提高效度,还要看系统误差变异数()的大小。可见,信度高不一定效度就高。但一个测验要想效度高,真分数的变异数必须占较大的比重,即测验的信度必须高.(二)测验的效度受它的信度制约根据效度和信度的定义( =,=)以及公式()可得到:= 第二节 效度的估计方

5、法由于测量效度是就测量结果达到测量目的的程度而言的,所以测量效度的估计在很大程度上取决于人们对测量目的的解释.目前比较常见的解释角度有3种:一是用测量的内容来说明目的的;二是用心理学上某种理论结构来说明目的;三是用实际实效来说明目的。于是有了内容效度、结构效度和实证效度之说。当然,这种分类是相对的,一个测验也许需要同时考察它在这3个方面的效度。有专家认为,效度估计就是多方寻找证据来证明一个测验的有效性程度的过程.本章着重介绍内容效度、结构效度和实证效度的含义与估计方法。(一)内容效度的含义及应用范围1、内容效度的含义内容效度是指一个测验实际测到的内容与所要测量的内容之间的吻合程度.估计一个测验

6、的内容效度就是去确定该测验在多大程度上代表了所要测量的行为领域.而所要测量的内容或行为领域是依据测量目的而定的。比如,在判断一个高中物理试卷是否有较高的内容效度时,我们必须首先分析考题是否有效地覆盖了中学物理所包括的力学、电学、光学、热学以及原子物理5个方面。内容效度高的物理测验应当是由这5个方面最有代表性的试题样本组成的.其次,我们还必须分析题目的难度等指标是否较好地反映了考试大纲中对这5个方面能力水平的要求,等等。2、内容效度的应用范围(1)内容效度主要应用于成就测验。因为成就测验主要是测量被试掌握某种技能或学习某门课程所达到的程度的。在这种测验中,题目取样的代表性问题是内容效度的主要考察

7、方面.内容效度高,则可以把被试在该测验上的分数推论到他在相应的知识总体上去,说他在某个方面水平处在一个什么样的位置。反之,内容效度低,则这种推论将是无效的。(2)内容效度也适合于某些用于选拔和分类的职业测验。这种测验所要测的内容就是实际工作所需要的知识和技能,编制这种测验应首先对实际工作做较细的分析,否则,题目取样的代表性就难以令人满意。3、应该注意的几点(1)内容效度不适合用于能力倾向测验和人格测验。(2)在使用内容效度时要避免与表面效度相混淆。表面效度是外行人对某个测验从表面上看好像是测某种心理特质的一种现象。当外行人认为某个测验能有效地测得某种心理特质时,该测验就被认为有较高的表面效度。

8、一般来说,最佳行为测验往往表面效度高,其他测验则希望表面效度低。(二)内容效度的确定方法1、逻辑分析法内容效度的确定方法主要是逻辑分析法,其工作思路是请有关专家对测验题目与原定内容范围的吻合程度作出判断.其具体步骤是:(1)明确欲测内容的范围明确欲测内容的范围包括知识范围和能力要求两个方面。这种范围的确定必须具体、详细,并要根据一定目的规定好各纲目的比例。(2)确定每个题目所测的内容确定每个题目所测的内容,并与测验编制者所列的双向细目表(考试蓝图)对照,逐题比较自己的分类与制卷者的分类,并做记录。(3)制订评定量表制订评定量表,考察题目对所定义的内容范围的覆盖率、判断题目难度与能力要求之间的差

9、异,还要考察各种题目数量和分数的比例以及题目形式对内容的适当性等等,对整个测验的有效性作出总的评价。2、克龙巴赫的统计分析方法克龙巴赫还提出过内容效度的统计分析方法。其具体方法是:从同一个教学内容总体中抽取出两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关低,则两个测验中至少有一个缺乏内容效度;若相关高,则测验可能有较高的内容效度(除非两个测验取样偏向同一个方面)。3、再测法再测法的操作过程是:在被试学习某种知识之前作一次测验(如学习电学之前考电学知识),在学过该知识后再作同样的测验.这时,若后测成绩显著优于前测成绩,则说明所测内容正是被试新近所学内容,进而证明该测验对这部分内

10、容而言具有较高的内容效度。二、结构效度(一)结构效度的含义、特点与应用范围1、结构效度的含义结构效度是指一个测验实际测到所要测量的理论结构和特质的程度,或者说它是指测验分数能够说明心理学理论的某种结构或特质的程度。这里,构想或结构是指心理学理论所涉及到的抽象而属假设性的概念或特质,如智力、焦虑、外向、动机等等,它们通常用某种操作来定义,并用测验来测量。2、结构效度的特点(1)结构效度的大小首先取决于事先假定的心理特质理论。一旦人们对同一种心理特质有着不同的定义和假设,则会使得关于该特质测验的结构效度的研究结果无法比较.(2)当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测验结果效度

11、不高,因为还有可能出现理论假设不成立,或者该实验设计不能对该假设作适当的检验等情况。这就使得结构效度的获取很难。(3)结构效度是通过测量什么、不测量什么的证据累积起来给予确定的,因而不可能有单一的数量指标来描述结构效度。3、结构效度的应用范围与内容效度不同,结构效度主要用于智力测验、人格测验等一些心理测验方面。(二)结构效度的确定方法1、确立结构效度的步骤(1)提出理论假设,并把这一假设分解成一些细小的纲目,以解释被试在测验上的表现。(2)依据理论框架,推演出有关测验成绩的假设。(3)用逻辑的和实证的方法来验证假设。2、结构效度的估计方法(1)测验内部寻找证据法。首先,我们可以考察该测验的内容

12、效度,因为有些测验对所测内容或行为范围的定义或解释类似于理论构想的解释,所以,内容效度高实质上也说明结构效度高。其次,我们可以分析被试的答题过程。若有证据表明某一题的作答除了反映着所要测的特质外,还反映着其他因素的影响,则说明该题没有较好地体现理论构想,该题的存在会降低结构效度。再次,我们足可以通过计算测验的同质性信度的方法来检测结构效度。若有证据表明该测验不同质,则可以断定该测验结构效度不高.当然,测验同质只是结构效度高的必要条件.(2)测验之间寻找证据法。首先,我们可以去考察新编测验与已知的能有效测量相同特质的旧测验之间的相关.若二者相关较高,则说明新测验有较高的效度。这种方法叫相容效度法

13、。其次,我们也可以去考察新编测验与某个已知的能有效测量不同特质的旧测验间的相关。若二者相关较高,则说明新测验效度不高,因为它也测到了其他心理特质。需要注意的是,二测验间相关不高只是新测验效度较高的必要条件,并不是充分条件。这种方法也叫区分效度法.再次,我们还可以通过因素分析的方法来了解测验的结构效度。其原理是:通过对一组测验进行因素分析,找出影响测验的共同因素。每个测验在共同因素上的负荷量(即测验与各因素的相关)就是测验的因素效度,测验分数总变异中来自有关因素的比例即是该测验结构效度的指标。(3)考察测验的实证效度法.如果一个测验有实证效度,则可以拿该测验所预测的效标的性质与种类作为该测验的结

14、构效度指标,至少可以从效标的性质与种类作为该测验的结构效度指标。其做法有两种:一是根据效标把人分成两类,考察其得分的差异。例如,一组被公认是性格外向的人在测验中得分较高,另一组被公认为是性格内向的人在测验中的得分较低,则什么说明该测验能区分人的内向与外向特征,进而说明该测验在测量的性格内外向方法有较高的结构效度.二是根据测验得分把分成高分组和低分组,考察这两组人在所测特质方面是否确有差异。若两组人在所测特质方面差异显著,则说明高测验有效,具有较高的结构效度。此外,对于一些被认为是较稳定的特质,若在短期内两次施测的结果差异不大,则说明该测验符合理论构想.(4)多种特质-多种方法矩阵法.该方法实质

15、是相容效度和区分效度的综合运用,其原理是若用多种极不相同的方法测量同一种特质相关很高(用极为相似的方法测量不同特质相关很低),则说明测量效度较高。例如,若有多种特质(如A、B、C)都接受了多种方法(如1、2、3)的测查,就可以分别计算出任意两种方法测量同一特质的相关和测量不同特质的相关,以及任意两种特质接受同一方法和不同方法的相关,并以这些相关系数为元素构成一个矩阵,如表5.1所示:表5。1 多特质多方法矩阵Method 1Teacher ratingMethod 2TestsMethod 3Observers ratingA1B1C1A2B2C2A3B3C3M1A1诚实(.89)B1 攻击性

16、.43(.89)C1智力.36.32(。76)M2A2诚实。62.03.20(.93)B2攻击性。22.70.13.40(.94)C2智力.10。13。64.22.30(。84)M3A3诚实。59。11。02。60.20.21(.94)B3攻击性.14.82-。16.13.61.23。30(.92)C3智力.21.10.72。06。19.52。49.36(.85)在上表中,位于主对角线上的数值,是用同样的方法测相同特质所得的相关,是信度指标;在实三角形内的数值,是用同样方法测不同特质所得之相关.此相关若高,则说明方法间共同点较多;在虚线三角形内的数值,是用不同方法测量不同特质所得的相关,它一般

17、较低,是特质与方法间交互影响的反映;在虚线三角形之间的两条对角线上的数值,是用不同方法测相同特质的相关,它是测验效度的指标。三、实证效度(一)实证效度的含义、种类及作用1、实证效度的含义实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性。也就是说,一个测验十分有效,应该以实践的效果来作为检验标准。如,当我们用机械能力倾向测验测查了一大批机械工人之后,若有证据表明测验高分组的实际工作成绩确实优于低分组的实际工作成绩,则可以认为该测验具有较高的实证效度.又如,在军队选拔汽车驾驶兵时,若用测验选出来的兵在学习驾驶技术,以及日后的驾驶过程中的表现都大大好于以前未用测验随意指派的汽车兵,则

18、表明该测验也具有较高的实证效度。被估计的行为是检验测验效度的标准,简称为效标。实证效度主要重视那些与测验独立的效标行为,而不太注重测验内容或结构。实证效度也称效标关联效度.2、实证效度的种类根据效标资料搜集的时间差异,实证效度可以分成同时效度和预测效度两种。例如,前面提到的机械能力倾向测验,其效标资料是与测验分数同时搜集的,所以它是同时效度。前面提到的汽车兵选拔测验,其效标资料是在测验之后根据实际工作成绩来确定的,所以它叫预测效度。3、实证效度的作用(1)对于同时效度来说同时效度主要用于诊断现状,在于用更简单、更省时、更廉价和更有效的测验分数来取代不易搜集的效标资料。(2)对于预测效度来说预测

19、效标的作用在于预测某个个体将来的行为.无论是同时效度还是预测效度,其目的都是想通过对测验在一个有代表性的样本上,用实证的方法来证明测验有效,于是在今后就可以用简便的测验去预测类似样本的其他团体或个体的行为。因此,有人把这两种效度都称作预测效度,并把测验称作预测源。(二)效标1、效标的含义效标就是衡量一个测验是否有效的外在标准,它是独立于测验并可以从实践中直接获得的我们所感兴趣的行为。2、效标测量 通常我们感兴趣的行为往往是一个观念上的东西(观念效标),它必须用一个数字 或等级来进行表达(效标测量)。如,大学入学考试的观念效标通常是“大学学习成功”,它的一种常用的效标测量便是大学头两年或一年相关

20、学科的平均成绩.同一个观念效标可以有多个效标测量(多样性),而且每一种效标行为往往都是由多种特质构成,因此,效标测量是件极为复杂的事(复杂性)。又因效标测量有多种多样,所以有些效标测量只可以反映测验在某一特殊方面的有效性程度,即,在一种情况下有效的测量,在另一种情况下未必有效(特殊性和时间性)。这就要求测验的编制者和使用者要特别小心。一般说来,效标测量要想较好到体现观念效标,那效标测量本身就必须是有效的和可靠的,而且还必须客观、使用。3、常用的效标在心理与教育测量工作中,常用的效标主要有:学业成就、等级评定、临床诊断、专门的训练成绩、实际的工作表现、对团体的区分能力以及其他现成的有效测验。这些

21、效标可以是连续变量,也可以是离散变量;可以是自然的现成指标,也可以是人为设计的指标;可以是主观判断,也可以是客观测量;可以是自我评定,也可以是他人评定等等。(三)实证效度的确定方法1、确定实证效度的步骤:(1)明确观念效标(2)确定效标测量(3)考察测量分数与效标测量的关系2、估计实证效度的方法(1)相关法实证效度的一种常用估计方法是计算测验分数与效标测量的相关系数(积差相关法、等级相关法、二列相关法、四分相关法等等)。(2)区分法该方法的思路是,被试接受测验后,让他们工作一段时间,再根据工作成绩(效标测量)的好坏分成两组。这时再回过头来分析这两组被试原先接受测验的分数差异,若这两种人的测验分

22、数差异显著,则说明该测验有较高的效度。(3)命中率当用测验作取舍决策时,决策的正命中率和总命中率是测验有效性的较好指标。其中,总命中率是指根据测验选出的人当中工作合格的人数,以及根据测验淘汰的人当中工作不合格的人数之和与总人数之比.若总命中率高,则说明测验的效度高.这种测验在区别合格者与不合格者方法是有效的。正命中率是指用测验选出的人中合格者所占的比例.这个比例越高,测验越有效。这类测验只关心被选中合格者有多少,而不关心被淘汰者中是否有合格者。这时测验的效度应该用测验的正命中率来评价。另外,在评价一个测验的效度时,还要注意测验使用的功利率比例,即:使用测验所带来的好处应大大高于使用测验所耗费的

23、时间、精力和经费,还要比较用测验与不用测验的效益之差,若差别不大,则没有使用测验的必要。第三节 提高测量效度的方法一、影响测量效度的因素严格说来,凡是与测量目的无关的稳定的和不稳定的变异来源都会影响测量的效度.这就是说,测验本身的构成、受测被试的特点、施测的过程、阅卷评分、分数转换与解释等一切与测量有关的环节都可能影响测量的效度.这里就其主要方面做以说明。(一)测验的构成当组成测验的试题样本没有较好地代表欲测内容或结构时,测量的内容效度或结构效度就必然会不高.同时若题目语义不清、指导语不明、题目太难或太易、题目太少或安排不当等等,都会降低测量效度。一般而言,增加测验的长度可以提高测量信度,进而

24、为提高测量效度提供了可能。于是,一些研究者便得出了测量长度与效度的公式如下:(5.2)式中是测验x增长至原来的K倍后,新测验与效标(y)的相关;K为测验增长的倍数;原测验的效度系数;为原测验的信度系数。(二)测验的实施过程一个测验在实施过程中,如不遵从指导语的要求、或出现以外干扰、或评分计分出现差错等等,都会降低测量效度.(三)接受测验的被试一般情况下,被试的应试动机、情绪、态度、身体状态等等,都会影响测量信度,造成较大的随机误差,进而影响测量的效度。 就整个被试团体而言,如果缺乏必要的同质性,则很可能会得到不恰当的效度资料。有时候,同样一个测验,对年龄、性别、文化程度、职业等方面不同的被试团

25、体,常常表现出不同的预测能力,即具有不同的测量效度。事实上,被试团体的年龄、性别、文化程度与职业等方面的特征,常常成为干涉变量.我们在考察效度时,要特别注意测验在不同团体上的效果,避免出现测验偏倚(test bias)。(四)所选效标的性质由于同一个测验可以有不同的效标,同一个观念效标也可以有不同的效标测量,所以在评价测量效度时,所选效标的性质是很重要的考虑因素。有的学者认为,智力测验分数与教师对学生等级评定之间的效度系数只要在0.300。50之间就可以了,因为教师的评价会受到与智力无关的其他因素的影响。与此类似,相同科目的标准化测验成绩与教师评价之间的相关应达到0。600。70,两种不同智力

26、测验或标准化测验之间的相关应达到0。600。80等等。所有这些不同的要求,主要是因为所用效标的不同而提出来的。在考虑效标与分数的相关时,有一个因素是必须重视的,即测验分数与效标之间是否符合线形关系的问题.因为皮尔逊积差相关的前提之一是二变量间具有线形关系,否则会得出错误的效度结论。这就要求我们在选用相关系数的计算公式时,注意各公式的使用条件。 (五)测量的信度测量信度是测量的随机误差的反映,而任何误差的增加都会降低测量的效度,所以在考察测量效度时,一定要注意测量信度。信度不高的测验不可能具有很高的测量效度。二、提高测量效度的方法要想提高测量效度民间必须设法控制随机误差、减小系统误差,同时,还要

27、选择好特别恰当的效标,把效度系数准确地计算出来。具体来说提高测量效度的方法有:(一)精心编制测验量表,避免出现系统误差。这就要求题目样本要能较好说代表欲测内容或结构,要避免出现题目偏倚. 同时,题目的难易程度、区分读也要恰当,题目的数量也要适中。太难、太易、太多、太少都是有损测量效度的。此外,测验试卷的印刷,题目作答的要求,评分计分的标准,题目意思的表述等等,都必须严格检查,避免一切可避免的误差的出现.(二)妥善组织测验,控制随机误差。在测验实施过程中,系统误差一般不太明显,但随机误差却有可能失控。这就要求测验实施者一定要严格按手册指导语进行操作,要尽量减少无关因素的干扰。(三)创设标准的应试情境,让每个被试都能发挥正常的水平。在各种测验中,有些被试往往因各种原因而发挥不出应有水平(比如过分焦虑致使水平失常等),因此,我们应让被试调整好应试心态,让他们从生理上、心理上、学识上等做好应有的准备。否则,焦虑因素和其他无关影响过大,必然会降低测量效度,测不到欲测的内容或结构效度。 (四)选好正确的效标、定好恰当的效标测量,正确地使用有关公式.在评价一个测验是否有效时,效标的选择是一个重要方面。假若所选效标不当,或所选效标无法量化,则很难正确地估计出测量的实证效度。如果效标及效标测量都合乎要求,则公式的选择也是影响效度估计的重要方面.

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服