第九章-人员测评理论与方法(萧鸣政)测评质量检验PPT课件.ppt

资源描述

测评质量检验一一项测评是否可靠、可信？是否可靠、可信？一一项测评是否准确、有用？是否准确、有用？一一项测评是否公正、公平？是否公正、公平？一一项测评是否是否经济、合理？、合理？1.测评质量检验l测评质量的检测，其内容主要有两个方面：一是分项素质测评结果分析；l二是各项素质的综合结果分析。l分析的指标主要有效度、信度、区分度、独立性2.第一第一节效度效度l所谓的效度是指测评结果对所测素质反映的真实程度。l考评人员素质测评的效度的方法有三种：l一是从内容性质方面分析其内容效度；l二是从实证方面分析其结构效度；l三是从校标相关性方面分析其关联效度。3.1、内容效度content validityl效度即测评结果的有效性程度。l内容效度是指实际测评到的内容与我们所想测评内容的一致性程度。l当实际测评到的内容与我们事先所相测评的内容越一致时，则说明测评结果的内容效度越高，测评结果就越有效。l比如，要测验学生的学习能力，学习能力包括识记、理解、应用、分析、综合以及评价等方面的能力。检测内容效度就可以看测验内容是否反映了这些方面的能力。4.l 内容效度主要是分析被包括在测评范围之内的所有被测行为样本是否具有代表，代表程度如何。其分析具体为两个方面的检查：l1.是否包括了欲测素质中的各种成分；l2.包括在测评范围内的行为样本的比例结构是否与工作分析的结果相一致。5.确定内容效度的方法（定性方法）l蓝图对照分析法：年全国年全国硕士研究生士研究生入学考入学考试英英语试卷卷结构框架构框架l专家比较判断法：C C(n(nN2)N2)N2N2（N N为专家家总数，数，n n为肯定人数）肯定人数）6.2、结构效度construct validityl结构效度也称构想效度、建构效度，是指实际所测评的结果与我们所想测评素质的同构程度，是测验能够测量到理论上的构想或特质的程度，它表明了在多大程度上，实际的测评结果能够被看作是所要测评的素质在结构上的替代物8.2、结构效度construct validityl构想，通常指一些抽象的、假设性的概念或特质，如智力、创造力、能力倾向、行为习惯、焦虑等。这些构想无法直接测量，具有抽象性。但是每个构想都有其心理上的理论基础和客观现实性，都和具体的可观察的事件相联系，可以通过各种可观察的材料加以确定。例如言语流畅性可以通过语速、语句间的逻辑性、口误的数量等可观察的指标进行确定。l适用范围：适用于智力测验、人格测验等。9.3、关联效度criterion-related validityl关联效度是指测评结果与某种标准结果的一致性程度。反映的是测验分数与外在标准（效标）的相关程度，即测验分数对个体的效标行为表现进行预测的有效性程度。（效标是用来衡量测评有效性的参照标准。）l例如一个机械能力倾向测验，其标准（效标）可以是成为机械师之后的表现；l对于一个管理能力测验而言，其效标可以是将来从事管理工作的绩效。l效标关联效度往往用于预测性测验。10.常见效标种类l学术成就前提是“智力高的人，学术成就应该越大”。如：在校成绩、学历、研究成果等。l特殊训练成绩能力倾向测验成绩常用某种特殊训练中取得的成绩做效标。如：言语智商用语文成绩做效标；机械能力用技术培训成绩做效标等。l实际工作表现与成绩。如产品量、晋升速度、劳模表扬情况等。l团体特征用两个在效标表现上有差别的团体比较他们在预测源分数上的差别。如：一个音乐倾向测验的效度，可以由比较音乐学院学生的分数与一般大学生分数获得。l等级评定结果必须是由权威的专家或主管人员作出的，或者是广大群众作出的。l先前被证明是有效的测评结果。如用明尼苏打机械性向测验得到的结果。11.第二第二节信度信度l信度是信度是标准化素准化素质测评的基本要求之一，的基本要求之一，如果如果测评工具的信度工具的信度不理想，不理想，测量量结果就果就无法被无法被认为能代表能代表应试者的一致、者的一致、稳定和定和可靠的行可靠的行为表表现，就可能，就可能误导对应试者的者的评价。价。12.信度及其影响因素信度及其影响因素l如果我们用一个游标卡尺来测量一个钢管的外直径，每次测量时都难免会有一定的误差。l首先，游标卡尺作为一种测量工具是有一定精度限制的，也就是说，测量工具本身存在量工具本身存在误差差。当然这种误差是必然存在的，而且误差是在一定范围中有规律的变动的，这种误差在测量工作中被称之为系系统误差差（systematic errorsystematic error）。l其次，我们每一次测量都可能出现操作上的差异，或者由于不可预见的外界因素的影响，产生测量量误差差。这些误差是很难控制的，而且无规律可循，有时大有时小，这种误差被称为随机随机误差差（random errorrandom error）。l前者在一定程度上可以控制，而后者很难控制，一个好的测量工具应该不仅要有尽可能高的精确度（与系统误差相关），还能够把误差控制在一个有规律的范围以内，这样才能够得到稳定可信的测量结果。信度信度实际上就是上就是对随机随机误差的一种度量。差的一种度量。13.1、信度的概念、信度的概念l信度（reliability）是指是指测评结果反映所测素质的准确性。l通常任何测验都存在某种程度的不一致性（同一受试者在不同时间或在不同的测验条件下做同一测验）l因为误差的存在，我们永远不可能完全揭示人的心理特点，只能无限接近真实分数。14.信度的信度的评估方法估方法l针对不同的误差来源，信度可以有不同的确定方法。16.1 1、再、再测信度信度(test-retest reliability)l是指测评结果以同样的测评工具、测评方式与测评对象再次获得的变异程度。l也即是同一测验在不同时间对同一对象施测两次，两次测量分数的相关系数即为再测系数。r=Nxy-xyNx2-(x)2 Ny2-(y)2式中：N表示两次测评结果数据配对总数；x表示被分析的测评结果（分数）；y表示重复测评得到的测评结果（分数）。r 越接近1，则说明测评结果（x）越准确可靠，否则就说明测评结果越不准确、不可信。17.2、复本信度、复本信度(alternative-form reliability)l复本信度是指测评结果相对另一个非常相同的测评结果的变异程度。它是以两个测验复本（功能等值但题目内容不同）来测量同一对象，然后求得被测者在这两个测验上得分的相关系数。复本信度反映了两个测验复本在内容上的等值性程度。r=6D2式中：N表示测评结果的总个数（被测人数）；D表示对应同一个被测两次评定等级（名次）的差，一般以被检验的测评结果为被减数。1-N（N2-1）20.l复本信度考虑的是内容取样误差的影响问题，计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。l例如同样是测量数学运算能力的测验，如果一个测验复本侧重于考核加减法的运算，而另一个复本侧重乘除法的运算，两者之间的相关必定不会太高，即复本信度低，说明必定有一项测验复本的取样有问题。21.3、一致性信度、一致性信度Consistency Reliabilityl一致性信度是指相同素质测评项目分数间的一致性程度。l如果被测者在第一个项目上比其他人分数高，在第二个项目上又比其他人高，在第三个项目上也比其他人高相反另一个人在第一个项目上比其他人分数低，在第二个项目上又比其他人分数低，在第三个项目上也比其他人分数低那么毫无疑问，我们会认为测评结果比较可靠。22.一致性信度的作用一致性信度的作用l再测信度和复本信度分别注重考虑测量跨时间的一致性（稳定性）和跨形式的一致性（等值性），而内部一致性信度用内部一致性系数表示，主要反映的是测验内部题目之间的关系，考察测验的各个题目是否测量了相同的内容或特质。23.一致性信度应用实例l例如：在人格测评中，乐观情绪特质和外向特质是两个容易混淆的内容，这就要求测评设计时能够找到相应的题目把二者区分开来。l在设计测评题目时，所有测评题目都要保证只测量一种特质或内容，如果需要在一个测评中测量不同内容，就应该将测评设计为几个分测评进行分别测评。例如16PF人格测评就包括16个分测评，每个分测评量表只对一种人格特质进行测评。24.一致性信度的计算方法l分半信度项目折半分析，是通过将测验分成两半，计算这两半测验之间的相关性而获得的信度系数。通常的方法是在测验实施后将测验分为等值的两半，并分别计算每位被测者在两半测验上的得分，再求出这两个分数的相关系数。这个相关系数就代表了两半侧眼内容取样的一致性程度。l同质性信度系数分析，是指测验内部的各题目在多大程度上考察了同一内容，即所有测验题目测量的只是单一特质或内容，表现为所有测验题目得分的一致性。rt=2r1+r式中：r表示两半项目分数相关系数；rt越大，则说明测评结果越可靠。式中：n表示测评项目数；st2表示测评结果的方差；vi2表示第i个项目得分的方差。rt=nn-1St2-vi2St225.信度可以接受的水平l一般的能力测验和成就测验的信度系数在0.90以上，有时可以达到0.95；l人格测验、兴趣、态度、价值观等测验的信度一般在0.80-0.85或更高些；l一般信度系数rt0.70,测验因不可靠而不能用；l0.70rt0.85时，才可以用来鉴别或预测个人成绩26.4、评分者信度（raters reliability）l 在有些测量情形中，评分者的评判也是误差的来源之一。例如投射测验、创造力测验、无领导小组讨论、管理者情境模拟等，都依赖于评分者的判断，这种判断的主观性往往造成不同评分者的评分很不一致，因此有必要考虑评分者信度。l 评分者信度是指不同评分者对同一对象进行评定时的一致性。l 信度的度量是以后者作为依据，测评者及其测评的无关差异越小，说明测评结果就越可靠。27.如何提高如何提高测评结果的可靠性？果的可靠性？l一、要选择高质量的测评工具l二、要控制测评过程及其组织的误差l三、要训练与提高测评者的操作水平28.信度小结：l各种信度评估的适用情景：再测信度评估侧重考察测评跨时间的一致性和稳定性；复本信度评估侧重考察测评跨形式的一致性和等值性；内部一致性信度评估主要反映的是一个测评内部题目之间的关系，揭示测评的各个题目是否测量了相同的内容或特质。评分者信度评估主要是考察评分者的主观误差。29.第三第三节项目分析目分析l项目适合度目适合度在素在素质测评中，中，项目不目不仅仅是是试题，更多的是，更多的是一些一些咨咨询问题或或观察察评定点定点（指（指标），它），它们无无难易之分。因此提出易之分。因此提出“适合度适合度”一一词。适合度指的是被适合度指的是被测者行者行为符合符合项目目测评标准的程度。准的程度。当当项目目为试题时，适合度即，适合度即难度；度；当当项目是目是问卷中的卷中的问题时，适合度即所有，适合度即所有选对的的被被测者人数与者人数与总人数之比；人数之比；当当项目目为观察察评定量表中的指定量表中的指标时，适合度即所，适合度即所有被有被测得分平均得分平均值与指与指标满分分值之比。之比。30.当当项目目为试题时，适合度即，适合度即难度度计算公式为：l难度的计算：l二分法计分项目的难度计算（只有答对或答错两种情况）31.l项目区分度目区分度又称又称鉴别力，指力，指项目得分目得分对被被试实际能力能力或心理特或心理特质水平的区分能力或水平的区分能力或鉴别力，也力，也即即项目得分的高低与被目得分的高低与被试实际能力或心理能力或心理特特质水平高低的一致性程度水平高低的一致性程度。在项目分析中，项目得分与总分的相关系数揭示了项目区分度的大小，相关系数越大则说明项目区分度越高32.l项目独立性目独立性 l 在能力在能力测评中，常常需要中，常常需要项目之目之间有有一定的独立性。一定的独立性。所所谓独立性即非相关性或独立性即非相关性或低相关性低相关性。独立性的分析一般采用。独立性的分析一般采用项目目间分数的相关系数揭示，根据分数的相关系数揭示，根据实际得分分布得分分布是否均匀，可以分是否均匀，可以分别采用采用rr系数法和列系数法和列联表表检验法。法。33.第四第四节其他指其他指标的分析的分析l客客观性性测评的客的客观性由性由测评方法方法的客的客观性性与与测评者者的客的客观性两方面构成性两方面构成l测评方法的客方法的客观性指它性指它对测评者主者主观影影响的控制程度。如响的控制程度。如检核表就比一般核表就比一般评定定量表更客量表更客观一些一些34.l误差差误差是指通差是指通过测评结果的定性定量分析，果的定性定量分析，判断判断测评结果是否受到果是否受到心理效心理效应的的严重影重影响响。分析的主要内容是心理。分析的主要内容是心理误差、差、标准准误差以及差以及单个个测评结果的致信区果的致信区间。35.l误差差 l心理心理误差差哈哈罗效效应误差差哈哈罗效效应又称又称晕轮效效应，是指，是指测评者往往会因者往往会因为对被被测评者整体印象的好坏从而影响他者整体印象的好坏从而影响他对每个素每个素质的的测评。例如因看到一个人相貌端庄、。例如因看到一个人相貌端庄、严肃，就容易就容易产生此人生此人责任感很任感很强的看法。由哈的看法。由哈罗效效应引起的引起的误差叫哈差叫哈罗效效应误差。差。哈哈罗效效应还表表现为因因对某个重要因素的印象好坏某个重要因素的印象好坏而而对整体整体评价价产生影响，所生影响，所谓一好百好，一丑白一好百好，一丑白丑。丑。虽然然这是一种泛化影响，而前者是一种演是一种泛化影响，而前者是一种演绎影响。影响。36.趋中心理中心理误差差趋中心理中心理误差是指因差是指因为测评者既不愿者既不愿把被把被测评的的过好，也不愿把被好，也不愿把被测评的的过差而差而过于集中在中于集中在中间段而段而产生的生的误差。差。这种种误差使有差异的被差使有差异的被测得到得到相同或相相同或相近近的分数，缺乏区分性。可以通的分数，缺乏区分性。可以通过测量量结果的分布及差异量分析来揭示果的分布及差异量分析来揭示这种种误差的情况。差的情况。37.宽大心理大心理误差差宽大心理大心理误差指因差指因测评者者不不坚持持测评的的标准准要要求就高不就低的求就高不就低的测评而而产生的生的误差。差。这种种误差表差表现为皆大皆大欢喜，高分低能。另一种喜，高分低能。另一种负向向宽大心理大心理误差，差，则是是过于于严格格，以一些脱离，以一些脱离实际的高的高标准准去去测评人的素人的素质，测评结果普遍果普遍较低。低。逻辑误差差逻辑误差指差指测评者者不是不是实事求是的事求是的对每每个素个素质独立地独立地测评，而是依据其是否相关，而是依据其是否相关的特点而的特点而进行行逻辑上的推断上的推断。38.对比效比效应误差差对比效比效应误差指差指测评者在者在测评过程中因被程中因被测与与标准准间存在某种存在某种明明显的反差的反差而而产生的生的误差。差。这种种误差又叫托差又叫托衬效效应误差。差。例如例如鹤立立鸡群，群，绿叶叶丛中一点中一点红。接近效接近效应误差差接近效接近效应误差是指差是指测评者往往会者往往会把在把在时间、内、内容、形状等特征相似或相近的两个容、形状等特征相似或相近的两个对象，象，给以以同同样的的评价价，而不，而不论他他们实际上是否有差上是否有差别。例如某个素例如某个素质低的人低的人夹杂在两个素在两个素质好的人之好的人之间，其，其测评分数就容易偏高，相反，一个素分数就容易偏高，相反，一个素质高的人高的人夹杂在两个素在两个素质好的人之好的人之间，他的分，他的分数就有可能偏低。数就有可能偏低。39.

展开阅读全文