1、关于调查问卷的信度和效度检验 (一)信度1 、信度的含义测验的信度又称测验的可靠性 , 是指同一个测验对同一组被试施测两次或多次 , 所得结果一致形程度。一个好的测验必须是稳定可靠的 , 多次使用所获得的结果是前后一致的。例如 , 用直尺测量长度 , 其结果是稳定可靠的 ; 用橡皮筋测长度则是不可靠的 , 前后测量结果缺乏一致性。在测量理论中 , 信度被定义为 : 某次测验分数的真变异数与总变异数 ( 即实测分数 ) 之比 :式中 Rxx 表示测量的信度 ,ST 2 代表真分数的变异数 ( 方差 ),Sx 2 表示实得分数的变异数 ( 方差 ) 。从上式可看出 , ( 1 )信度是指实测值和真
2、值相差的程度 , 实测值是指对某物实际进行测量时所获得值 , 也称实测分数 (X); 真值是指被测事物的真实规模取值 , 也称真分数 (T) 。由于各种原因 , 实得分数常不等于真分数 , 两者之差称为测量误差或误差分数 (E) 。从理论上看 , 实得分数由真分数和误差分数两部分组成即 :X=T+ERxx 就是对一组测验数据的实测分数与真分数相差程度的最好估计。( 2 )信度又是指相同的测验对相同的被试再次测量时引起的同样反应的程度。如果两次测验中 , 受测者所得分数或所处等级前后一致 , 则说明测验结果的信度较高 ; 反之 , 两次测验结果一致性低 , 说明测验结果的信度低。信度是任何一种测
3、量的必要条件 ( 但不是唯一条件 ), 只有测量值接近或等于真值 , 用同一工具多次测量同一特性获得相同或相近的结果 , 才能认为这个测量结果是可靠的。信度对于教育测量尤其重要 , 只有信度高的教育测验才能成为教育工作者有用的工具 , 才能为教育工作者提供可靠的信息 , 为教育预测和决策提供客观依据。2 、信度的估计方法测验的信度是用信度系数的大小来表示的 , 根据测量理论 , 信度系数但是在实际测量中 , 一般只能获得实得分数 (X) 及实得变异数 (Sx 2 ), 而真分数 (T) 及真变异数 (ST 2 ) 是不知道的 , 因此 , 依据上述公式还无法机算信度系数。在统计上 , 主要采用
4、相关分析的方法即机算两列变量的相关系数 , 用相关系数的大小来表示信度的高低。主要用以下方法来求得信度 :( 1 )再测法 : 用同一测验对同一被试 , 前后施测两次 , 根据两次测验分数计算相关系数 , 即是再测信度。该信度反映了测验的稳定性程度 , 故又称稳定性系数 , 是用皮尔逊积差相关公式计算的 :式中 X 1 .X 2 为同一被试的两次测验得分 ,M1.M2 为两次测验的平均分数 ,S 1 .S 2 是两次测验的标准差 ,N 是被试人数。用再测法估计信度 , 可以得到有关测验结果是否随时间而变化及变化程度的资料 , 可以作为预测被测者将来行为表现的依据。但也存在明显的局限性 : 前后
5、两次测验结果易受到练习和记忆的影响 , 前后两次施测的时间间隔影响稳定性系数 , 特别是对学绩测验的影响较大。如果时间间隔太长 , 被测者的身心因受环境影响将发生大的变化 , 从而对第二次施测结果产生较大影响 , 使稳定性系数降低 ; 如果间隔太短 , 则被试第一次完成测验时练习和记忆会对第二次测验产生较大影响 , 使第二次测验性质发生变化。另外 , 有些测验不宜用再测法估计信度 , 如测量创造力测验 , 被试一旦掌握了解决问题的办法、原则 , 重测时 , 他将很容易作出反应 , 这样测验的性质就发生了改变。因此 , 只有在没有复本可用 , 测验不易受重复使用影响 , 现实条件又允许重复施测的
6、情况下才使用重测法估计信度。用重测法估计信度 , 间隔时间长短没有严格的规定 , 一般说 , 间隔时间越长 , 稳定性系数越低 , 最适宜的时距应根据测验目的、性质及被试特点而定 , 最好不超过六个月。对儿童的时距应该短些 , 对成年人的时距可适当长些 , 因为个体早期的身心特征变化较大 , 而成年人的身心特征则相对稳定。( 2 )复本法 . 根据同一测验目的编制的许多平行德等值测验 , 可测定被试的同一特征 , 这些等值的测验叫做复本。对一组受测者间隔一定时间或同时施测两个复本 , 根据两次测验结果求得相关系数 , 即得等值性系数 , 又称复本信度。对一组受测者间隔一定时间后施测两个复本所求
7、得的稳定性系数又称等值稳定性系数。因为用这种方法求得的信度不仅受复本质量的影响 , 而且受时间练习等因素的影响 , 因此 , 等值稳定性系数更全面地反映了测验的信度。计算等值稳定性系数是对两个复本测验结果计算斯皮尔曼积差相关系数 ( 具体公式见前 ) 。( 3 )分半法 . 当测验没有复本 ( 复本的编制是很复杂的 ) 而且测验只适合施测一次的情况下 , 可用分半法估计信度 , 即将测验题目分成对等的两半 , 根据每人在这两半测验中的得分 , 计算其相关系数 , 这个系数又称内部一致性系数。要求得分半信度 , 首先要将测验分成对等的两半。绝大多数测验是由许多题目排列组成的 , 但是若将测验简单
8、地分成前后两部分 , 常常是不对等的 , 对等的两部分起码有两个要求 : 一是测验的两部分在难度、区分度及测验目标上基本是相同的 ; 一是被测者以同等的态度来对待两部队测验 , 即在完成两部分测验过程中 , 练习 , 疲劳 , 情绪等因素对被试产生了同等的影响。因此 , 将一个测验分成两部分时 , 常用的是奇偶分半法 , 即将奇数题分为一部分 , 将偶数题分为一部分。 特别是测验题目是按由易到难排列时 , 这种分法可以将测验分为大致相等的两半 , 但是 , 对于速度型的测验不适合用奇偶分半法。用分半法求出的测验的信度系数并不能反映整个测验的信度。这是因为信度受测验的长度的影响 , 测验越长 ,
9、 信度越高 , 将测验分成两半求得的信度系数 , 低估了整个测验的信度 , 因此 , 需对测验系数加以校正 , 校正公式是斯皮尔曼布朗 (Spearman Brown) 公式 :Rxx 是整个测验的信度估计系数 ,Rhh 是两个分半测验的相关系数。上述公式的前提假设是两个半测验分数的变异性相等 , 但是若测验资料不符合这个假定 , 可用下列公式求得信度 :弗朗那根 (Flanagan) 公式 :Sa 2 和 Sb 2 分别代表两个分测验分数的变异数 ,Sx 2 代表整个测验的变异数。卢伦 (Rulon) 公式 :Sd 2 代表两个半测验分数之差的变异数 ,Sx 2 代表总测验变异数。对于由客观
10、性题目组成的测验 ( 即答对一题得一分 , 答错得 0 分 ), 则可用库得理查逊 (Kuder Richardson) 公式估计测验的内部一致性 :k 为测验的总题目数 ,p 为某一个题目的答对率或通过该题目的人数比例 ,q 为未通过该题目的人数比例 ,p=1-q,Sx 2 为测验总分的方差。对于由客观性题目和主观性题目组成的测验 , 有些题目是多重计分的情况下 , 则要用克伦巴赫 (Cronbach) 公式计算系数来估计测验的内部一致性 :k 为测验题目总分 ,Si 2 是某一题目得分的方差 ,Sx 2 是整个测验分数的方差。上面这些公式不适用于速度性测验 , 因为只有每个人做完所有的题目
11、 , 题目的方差才是准确的。3 、提高测验信度的方法 :影响测验信度的误差归纳起来主要有 :(1) 抽样误差 : 简单说 , 这是在抽样过程中由于被试间的差异所造成的误差。被试间的差异可以用全距和方差大小来表示。全距是指某一心理量最大值与最小值之差。全距大说明被试间差异大 , 全距小说明被试间差异小。被试间在某一心理量上参差不齐 , 差别悬殊 , 则该心理量的方差大 ; 反之 , 方差小。对于方差小的样本 , 被试间在某一心理特征上相差较小 , 则前后两次测验结果的一致性较低 , 即降低了信度。 因为被试之间的差别越小其同质性越高 , 被试的分数只要发生小的变化 , 其名次就可能改变 , 从而
12、降低信度。(2) 随机误差 : 由于各种偶然因素的影响而产生的误差 , 表现为用同一方法多次测量同一对象时结果上不一致。随机误差是由许多因素造成的 , 如量标的质量 , 测量的程序 , 被试的身心状态 , 测量的环境等。根据影响测验信度的因素 , 可从以下几方面来提高测验的信度 : 一是从测验本身考虑 , 如测验的长度、难度、区分度、速度、程序、环境条件与计分方法等 ; 一是从被试自身考虑 , 如被试在被测心理特征上的差异大小 , 参加测验的动机水平 , 对测验的态度和积极性等。在此主要介绍如下几种提高测验信度的方法 :( 1 )适当延长测验的长度 :测验的长度主要指量表所包含的题目多少。对一
13、个测验来说 , 测验的题目越少 , 得分越容易受偶然因素的影响 , 故测验的信度越低。反之如果测验题目较多 , 即测验长度延长 , 扩大了被试得分范围 , 可在一定程度上排除偶然因素的影响 , 从而提高测验信度。但是测验信度的增加并不是等比例提高信度系数。当信度系数较小时 , 延长测验长度信度系数增加较大 ; 当信度系数已经较大时 , 延长测验长度对信度系数的影响就较小了。而且 , 在延长测验长度时 , 还需考虑其他因素的影响 , 如被试在回答问题时是否疲倦或产生厌烦情绪 , 是否节省时间、物力和财力 , 测题是否附合测验目的等。( 2 )测验的难度要适中 : 难度即测验的难易程度 , 当测验
14、难度太大时 , 被试得分普遍太低 , 呈负偏态分布 ; 当测验难度太小时 , 被试得分普遍较高 , 呈正偏态分布。太难太易的测验都使被试得分差异减小 , 使实得分数方差减小 , 从而降低测验信度。参见公式 :( 3 )测验的内容尽量同质 : 性质相同的测验内容 , 对被试也要求相同的能力、知识和技能 ; 而内容不同质的测验 , 则要求被试不同的能力、 知识和技能。因而为了提高测验信度 , 测验内容应尽量同质。( 4 )测验的时间要充分 : 对某一测验而言 , 应保证绝大多数被试在规定时间内完成测验 ; 否则 , 如果被试不能从容回答所有问题 , 就不能反映被试的真实水平。( 5 )测验的程序要
15、统一 : 包括测验的题目统一 , 指导语、回答问题的方式、分收试卷的方法、测验时间等都要统一。( 6 )评分要客观 : 评分是否客观对测验信度有直接的影响。对于客观性题目 , 评分标准明确 , 评分容易做到客观 ; 但对于主观性题目 , 受评分者影响较大 , 不易做到客观。为了尽可能客观评分 , 应制定明确而易掌握的评分标准 , 尽量做到一卷多评 , 或一人只评一题等。(二) 效度1 、效度的含义效度 (Validity) 是指测量的有效程度或测量的正确性 , 即一个测验能够测量出所要测量特性的程度。例如 , 用直尺测量长度是有效的 , 而用来测量温度则是无效的。对效度的定义可作如下理解 :(
16、 1 )任何一种测验只是对一定目的来说才是有效的。( 2 )测验的效度是对测量结果而言的 , 即一种测量工具只有经过实际测量 , 才能根据测量结果判断它的效度。( 3 )测验的效度是相对的而非绝对的。测验是根据行为样本 , 对所要测量的心理特性作间接推断 , 只能达到某种程度的准确性 , 而没有全有、全无的差别。在测量理论中 , 效度被定义为 : 在一系列测量中 , 与测量目的有关的真变异数 ( 即有效变异 ) 与总变异数之比 : rxy 表示测量的效度系数 ,Sv 2 代表有效变异数 ,Sx 2 代表总变异数。根据上述公式 , 可看出效度与信度的关系 : Sx 2 =Sv 2 +SI 2 +
17、SE 2ST 2 =Sv 2 +SI 2 rxy 2 rxxSI 2 表示系统误差方差 , 它稳定地与有效方差结合在一起 , 对信度没有影响 , 而影响效度。从以上证明看出 , 测验的效度受测验的信度所制约 , 而且效度系数不会大于信度系数。效度高的测验 , 信度必定高 ; 但信度高的测验 , 效度则未必高。效度在教育测量中有重要的意义。对一个测验来说 , 效度比信度更为重要 , 测验首先要保证能如实地测量出所要测量的东西 , 否则 , 这种测量将是没有意义的。在教育测量中 , 效度问题尤其重要 , 首先 , 教育测量的对象大多是精神现象 , 只能对被测者的外部表现进行测量 , 以间接了解其心
18、理活动特点或知识技能水平。其次 , 学生的心理活动特征与其外部表现之间 , 仅有相关关系而没有严格的函数关系 , 外部行为有时并不能准确地反映某种心理状态。再次 , 教育测量对象是有主观能动性的人 , 人是能够有意识地调节自己的外部行为 , 掩盖自己的内心活动 , 这就更增加了教育测量的难度。2 、效度的类型与估计(1) 内容效度 (Content Validity): 是指测验目的代表所欲测量的内容和引起预期反应所达到的程度。例如 , 以考查学习成绩为目的的测验来说 , 所欲测量的内容 是指教学大纲所规定的全部教材 ; 起预期反应 是指学生学习这些教材所产生的行为变化 , 如对教材的记忆、理
19、解和应用。在编制测验时 , 内容效度是一个相当复杂的问题 , 例如教师编制学绩测验 , 其目的是了解学生在某一学科或专题上对知识掌握情况 , 若条件允许 , 应该对大纲规定的所有内容进行全面考试 , 这显然是行不通的 , 只能从这一范围总体内容中选取有代表性题目 ( 样本 ), 组成测验 , 根据测验分数推论学生对该范围总体知识的掌握。若测验题目较好地代表了这个知识范围 , 则推论是有效的 , 即测验的内容效度高 ; 若选题有偏差 , 则推论是无效的 , 即测验的内容效度低。从另一方面看 , 测验题目所引起的被试反应 ( 是一个样本 ), 若能代表其对本学科或专题的全部行为反应 , 也说明该测
20、验是有效的 ; 反之 , 则是无效的。因此 , 一个测验要有较高的内容效度应具备如下两个条件 :1. 要有定义好的内容范围。 2. 测验题目取样应有代表性 ( 对所界定的内容范围而言 ) 。估计内容效度的方法 :A 、由专家进行逻辑分析 : 即请有关专家对测验题目与原来的内容范围是否符合进行分析 , 作出判断 , 看测验题目是否较好地代表了原来的内容。B 、统计分析 : 克伦巴赫 (Cronbach) 认为内容效度可以进行数量估计 , 方法是从同一教学内容总体中抽取两套测题 , 分别对同一组被试进行测验 , 两种测验的相关系数可用来估计内容效度。若相关系数大 , 则内容效度高 ; 若相关系数小
21、 , 则两个测验中至少有一个内容效度低。另外 , 有经验的任课教师对本学科测验的内容效度有较好的判断。当然 , 若能与有关专家配合会更好些。( 2 )结构效度 (Construct Validity): 又称构想效度 , 是测验对某一理论概念或心理特质量的程度。即某测验对所要测量的结构或心理特质实际测量的程度。心理测验都是建立在心理学理论基础的 , 例如比纳西蒙智力量表的制订 , 心理学家比纳 (Binet) 首先详细研究了智力的结构 , 他认为智力行为是一种连锁性的过程 , 包括判断、推理、 解决问题等。他根据这一理论编制的智力测验 , 确实测量出被试的判断、推理和解决问题能力 , 可以认为
22、他所编制的测验具有结构效度。一般说 , 学科测验主要看内容效度 , 心理测验主要看结构效度。 判断内容效度更容易一些 , 有教学大纲作依据 ; 判断结构效度更难一些 , 因为理论结构和心理特质不易把握。因此 , 要制订有构想效度的测验 , 首先要建立理论结构 , 例如智力测验 , 先要确定关于智力的一套理论 , 如智力的概念、结构、与环境的关系、与年龄的关系、与性别的关系等 , 在理论的基础上提出若干假设并编制测题。确定结构效度的方法 :A 、对测验题目进行分析 : 主要是分析测验的内容 , 被试对题目所作的反应 , 测验题目的同质性以及分测验之间的关系来判断测验的构想效度。B 、计算与同类权
23、威测验的相关 : 某一个新测验如果与同类的大家公认有效的已有测验之间 , 在测验结果上相关很高 , 说明这两个测验测的是相同特质 , 即新测验也有较高的结构效度 , 如后编的智力测验常与斯坦福比纳智力量表进行比较。C 、因素分析 : 通过因素分析找到影响测验分数的共同因素 , 在测验分数的总变异中来自有关因素的比例 , 可以作为构想效度的指标。(3) 预测效度 (Predictive Validity): 又称实证效度 , 是指一个测验对个体将来的行为或获得的成就进行预测时的准确性。一个测验预测得越准确 , 预测效度越高。被预测的行为或成绩是检验预测效度的标准 , 简称效标 (Criterio
24、n), 即衡量测验有效性的参照标准。效标是估计预测效度的主要依据 , 应具备如下一些条件 1) 有效性 : 即效标测量本身必须有效。 (2) 可靠性 : 效标测量要具有较高的信度。 (3) 客观性 : 在效标测量时要防止受评定者主观印象和成见的影响 , 要防止效标污染 , 即由于主试知道某个人原来的测验成绩 , 因而影响了在效标测量中对这个人的评定分数。 (4) 效标测量应该简单省时 , 花费少 , 经济实用。一般常用学业成就 , 等级评定 , 临床诊断 , 实际的工作表现作为效标。例如 , 一个智力测验其预测效度既可用被试的学业成就作效标 , 也可用熟悉的班主任对其进行等级评定作效标。估计预
25、测效度的主要方法是 :A 、相关法 : 即求某测验分数与效标测量间的相关 , 所得结果即效标系数。当测验分数与效标测量分数都是连续变量时 , 用积差相关公式求相关系数 ( 具体公式见统计教材 ) 。当测验分数是连续变量 , 而效标测量分数是二分变量时 , 可用二列相关公式计算效度系数 ( 具体公式见统计教材 ) 。B 、区分法 : 即看原先测验的分数是否可以区分由效标测量所化分的团体。例如 , 某工厂通过测验录用了一批工人 , 过一段时间后 , 根据工作成绩将其分为称职和不称职两种 , 然后回过头来检查他们的测验分数 , 运用 t 检验看看两组在测验上的平均分数是否有显著差异。若有显著差异 ,
26、 说明测验是有效的 ; 若差异不显著 , 说明测验是无效的。C 、功利率 : 为了测定测验的功效 , 人们还可对使用测验所化掉的费用与得到的利益进行比较 , 看其利弊大小 , 这种效度指标叫功利率。U=B(Ns)-C(Nu)-SU 代表功利率 ,B 表示录用一个合格的工人所产生的平均利润 ,C 表示录用一个不合格的工人所造成的损失 ,Ns 和 Nu 分别代表所录用的人中成功和不成功的人数 ,S 代表整个选人程序的费用。计算功利率说明 , 如果一个测验简单易做 , 适合于团体施测 , 即使效度低些 , 也会有人采用 ; 反之 , 如果测验复杂 , 只能个别施测 , 费时费力 , 那么只有效度极高
27、 , 给人带来极大好处时 , 人们才会使用它。提高测验效度对教育测验非常关键 , 效度系数多大合适 ? 要根据测验的具体情况而定 :(1) 智力测验分数与熟悉教师对学生智力等级评定之间的效度系数一般在 0.30 0.50 之间。教师评定常受许多其他因素的影响。(2) 某一科目的标准测验成绩与任课教师对学生名次排列之间的相关系数应达到 0.60 0.70 。(3) 两种不同的智力测验或两种标准测验之间的相关系数应达到0.60 0.80效度系数可解释为效标分数中的变异有百分之几来源于测验的变异。例如效度系数为 0.50, 则说明效标分数中有 0.502=25% 的变异来自原测验分数的变异 ; 若效
28、度系数为 0.71, 则效标分数中有 50% 的变异来自原测验分数。3 、提高测验效度的方法 :( 2 )控制系统误差 : 系统误差是影响测验效度的主要因素。它主要包括仪器不准 , 题目和指导语有暗示性 , 答案按排不当 ( 被试可以猜测 ) 等 , 控制这些因素可以降低系统误差 , 提高效度。(2) 精心编制测题和测验量表 : 首先测题内容要适合测验目的 , 如知识性测题就不能全面反映被试的智力水平 , 它主要测量其知识水平。其次 , 测题要清楚明了 , 用语要让被试理解 , 排列由易到难。第三 , 测题的难度和曲分度要合适。(3) 严格按照测验程序进行测量 , 防止测量误差 : 要严格按照
29、测验手册进行测量 , 不能作过多的解释 , 按标准评分 , 两次测验间隔要适当。(4) 样本容量要适当 : 当样本容量增大时 , 样本对总体的代表性提高 , 样本大 , 被试的内部差异增大 , 扩大了真分数的方差 , 使效度提高。样本容量一般不应低于 30 。另外 , 抽样方法也很重要 , 一般用随机抽样 , 当群体很大时 , 可分层抽样 , 样本容量扩大时 , 其代表性才随之增大。(5) 正确处理好信度与效度的关系 : 信度是效度的必要条件 , 但信度高的测验 , 效度不一定高 ; 而效度高的测验 , 信度却比较高。但是 , 既要有高效度 , 又要有高信度是不容易做到的。“最大可靠度(信度)
30、要求测验项目之间有高度的组间相关;最大预测有效度却要求低度的组间相关。最大可靠度(信度)要求项目等同的难度;最大预测有效度却要求项目的难度有所区别。中等程度的组间相关( 0.10 0.60), 通常可产生良好的效度 (0.30 0.80), 并且产生满意的信度 (0.90) 。” ( 郝德员 : 教育与心理统计 , 教育科学出版社 ,1962 年版 .P429)(6) 适当增加测验的长度 : 增加测验的长度可提高测验的信度 , 也可以提高效度 , 但增加测验的长度对信度的影响大于对效度的影响。如果增加测验长度到原来的 n 倍 , 则新测验的效度系数 Rnxy 计算公式 :式中 Rxy 、 Rx
31、x 分别是原测验的效度系数和信度系数。2.3.3 信度和效度检验(1)信度检验采用Cronbach 系数、个别项目信度、潜在变量的组合信度(Composite Reliability, CR)进行信度检验,其中运用SPSS15.0中的“Analyze-Scale-Reliability Analysis”命令,并选择“Statistics”中的“Scale if item deleted”,来计算Cronbach 系数,利用LISREL8.70进行验证性因子分析来计算个别项目信度和组合信度,验证性因子分析的运算结果(详见附录3)经整理如表2.6所示:从表2.6中关于Cronbach 系数的三栏
32、中可以看出:C1、B4对应的“校正得项总计相关性”(Corrected Item-Total Correlation)偏低(相对于该部分量表中的其他指标对应值而言),且删除C1、B4有利于分别提升该部分量表的总体信度,故应将C1、B4两个指标删除。同时“个别项目信度”一栏中C1、C2、B3、B4、P1这5个指标的因子负荷均小于0.50,根据社会科学研究特点,这5个指标也应删除,且删除后有利于提高整个因素的一致性;而另外35个指标的因子负荷均大于0.5,满足信度要求。除此之外,诚信环境、企业素质、投标诚信、履约诚信、社会诚信各个量表以及整体的Cronbach 系数分别为0.750、0.845、0
33、.817、0.862、0.830、0.939,属于很可信的区间范围;且对应的组合信度分别为0.75、0.85、0.83、0.86、0.83、0.96,均大于0.5,满足信度要求。(2)效度检验在信度检验删除5个指标基础上,首先,对有效样本数据进行KMO抽样适当性检验和Bartlett球形检验,检验结果显示KMO值为0.5,Bartlett球形检验的x2值为250.278(自由度为105),达到显著水平(p=0.0000.5,(巴特利特球体检验的x2统计值的显著性概率)P值0.5,则说明因子分析的效度还行,可以进行因子分析;另外,如果巴特利检验的P0.001,说明因子的相关系数矩阵非单位矩阵,能够提取最少的因子同时又能解释大部分的方差,即效度可以。