心理测量考试复习.doc_咨信网zixin.com.cn

资源描述

1、一、最早的智力测验比奈西蒙量表P111.比奈（Alfred Binet)法国心理学家，心理测验的鼻祖。贡献：（1）提出了测量智力的方法，并建立了最早的相对客观、量化的度量工具。（2）将智力测验成功地运用于教育领域，使人们看到了心理测验的应用价值，推动了心理测验的迅速发展。智龄是比奈西蒙智力量表中使用的判断智力的术语。比奈智力量表系列主要有比奈量表、斯坦福比奈量表和中国比奈量表。（一）比奈量表比奈量表是比奈和西蒙编制的，有1905年、1908年和1911年三种版本。内容：1905年版共有30道题，题目顺序由易到难排列，通过对3岁至11岁各50名正常儿童和部分智力落后儿童以及成人测试的结果，分析确

2、定题目的难易程度，并用不同难度的题目代表不同年龄的智力水平。特点：个体测验；用智力年龄来评判结果。不足：（1）从内容上看，该量表主要是对判断、理解和推理能力的测查，并不能涵盖智力的全部内容。（2）从形式上看，这个量表无论是测验主持人的指导，还是被测者的回答或反应，主要都是以语言形式进行的，因而对语言能力的依赖程度较大，这对某些特殊儿童如聋哑儿童是不公平的。（3）这个量表不能准确地表示测验总分，只能以被测者完成题目的多少来大致确定其智力水平。行为样本（behavioral sample）就是“少数有代表性的行为”P31标准化(standardization)P32是指测验编制、实施、记分和测验分

3、数解释必须遵循严格的统一的科学程序，保证对所有被测者来说施测的内容、条件、记分过程、解释系统都相同。测验题目的标准化；实施过程和记分的标准化；选用有代表性的常模。信度（reliability），主要是指测量结果的可靠性或一致性。P32信度(reliability)是指测验结果的可靠性、稳定性，即测验结果是否反映了被测者的稳定的、一贯性的真实特征。简言之，信度就是对测量一致性程度的估计。#误差的含义和类型P1401.含义：误差测量中与目的无关的变因所产生的不准确、不一致的效应。2.类型（1）抽样误差由样本变动而产生的误差。信度或效度估计中，抽样误差可以忽略不计。（2）系统误差与测验无关的因子所

4、引起的恒定、系统的、有规律的变化，存在于每次测验中，又称常定误差。系统误差影响效度，但与信度无关。（3）测量误差（或观察误差、随机误差、偶然误差）使用测量工具进行心理测量所造成的误差。测量误差是不系统的、随机的，偶然因素引起的。信度完全受测量误差的影响，也会影响效度。#影响信度系数的因素P156一、分数分布范围的影响(一)团体的异质性如同所有相关系数样，信度系数受分数的分布范围所影响，而分数范围与被试团体的异质程度有关。一个团体越是异质，其分数范围越大；而一个经过筛选，相对同质的团体分数较为均匀。提高信度系数，需要测验团体的异质性高。团体异质性不同，分数的标准差亦不同。当将测验用于标准差不同

5、的团体时，可用克莱公式推算出新的信度系数。(二)团体的平均水平对于不同水平的团体，题目具有不同的难度。每个题目在难度上的微小差异累积起来便会影响信度。这种影响都不能由统计公式来推估，只能从经验中发现它们。比如：斯坦福一比奈测验的信度系数从0.83到0.98不等。年龄较大的比年龄较小的信度高，智商较低的比智商较高的信度高。二、测验长度的影响一般说来，在个测验中增加同质性的题目，可以使信度提高。假设有一个包括10个题目的测验，信度为0.50，若把测验增加到50个题目，其信度将增加到：当由于测题过少而导致信度较低时，增加多少个题目可以达到理论的信度指标，可以用下式来推算：三、测验难度的影响当测验过难

6、且题目形式为选择题时，受试者会对许多题目作随机反应瞎猜，这样我们就无法对其分数置信。若大部分人随机作答，分数的差别将主要取决于随机误差，因而信度将趋近于零。因此，如果题目确实允许猜测，应使整个测验稍容易一点，以减少猜测机会，增加可靠性。洛德(Lord)提出在学绩测验中，为了保证其可靠性，各类选择题的理想平均难度为：五选题 0.70 四选题 0.74 三选题 0.77是非题 0.85四、间隔时间以再测法或复本法求信度，两次测验相隔时间越短，其信度系数越大；间隔时间越久，其它变因介入的可能性越大，受外界的影响也越多，信度系数就越低。效度（validity），与测量目标有关的真实分数方差（即由测量

7、目标变量所产生的方差）与总分方差的比率。P33效度是一个测验对其所要测量的特性测量到什么程度的估计。通俗的说，也就是测验是否精确的测量了想要测的东西。社会赞许性做答，有的受测者可能会掩饰自己真实情况，按照社会认可的方式去做出自我评价，使自己看起来更“好”。效度指标主要包括：效标关联效度内容效度构想效度rXY=Sv2/SX2 ，Sv其中是有效方差，SX是总方差。P170而SX2=ST2+SE2=SV2+SI2+SE2可见，造成测验分数变化的原因出自三大来源：测量对象本身的变化，量具的精度造成的系统误差，量具使用中造成的随机误差。二、效度评定的方法（一）内容效度1.定义：检查测验内容是否是所要测

8、量的行为领域的代表性取样的指标。内容效度分析时要注意两方面的问题：1)应避免将测验取样的行为领域过于泛化。2)要注意测验分数中无关因素的影响。2内容效度的评估方法（1）没有可用的数量化指标，只能靠推理和判断评估。（2）依赖条件：测验内容范围明确；测验内容的取样有代表性。（3）确定方法：通常是由专家根据测验题目和假设的内容范围作系统的比较判断。也可间接借用其他统计指标说明，如评分者信度，复本信度等。克朗巴赫法：由两个独立取自同样内容范围的测验的得分之相关来作数量的估计。3.确定内容效度的步骤1)确定总体范围，即描述有关的知识与技能及所用材料的来源；2)编制双向细目表，确定内容和技能各自所占的

9、比例，并由测验编制者确定各题所测的是何种内容与技能；3)制定评定量表来测量测验的整个效度及其他特点。4.内容效度的应用(1) 最适合于评估教育和职业成就测验。内容效度的评价可以回答以下两个问题：样本的代表性；无关因素的影响程度。(2) 评价某些用于选拔和分类的人事测验。(3) 不适用于能力倾向测验和人格测验。5.表面效度(face validity)表面效度是指测验在采用者或被试的主观认识上觉得有效的程度。有时为了取得被试的合作和信任，表面效度是不容忽视的。适用领域：职业兴趣测验、成就测验等不适合领域：人格测验（二）效标关联效度(效标效度)1.定义：反映测验分数与外在标准(效标)的相关程度，即

10、测验分数对个体的效标行为表现进行预测的有效性程度。效标关联效度往往用于预测性测验。这种测验中，根据测验分数作出的预测一般用于甄选决策。2.效标关联效度的类型（1）预测效度定义：反映由测验分数对任一段时间间隔后被试行为表现的预测程度。适用范围：对人员进行选拔、分类和安置的人事测验。（2）同时效度含义：效标材料和测验分数同时搜集。应用范围：因为同时效度的评估不需要长期追踪，所以应用比较普遍。（3）同时效度和预测效度的差异测验目的不同。前者多用于诊断现在的状态，后者多预测未来的结果。3.效标和效标测量(1)效标:衡量测验有效性的参照标准。(2)效标测量:可操作的测量指标。(3)效标分类：观念效标：

11、效标的实质概念内容。效标测量：即效标的具体度量方法。(3)保证效标测量客观性的要点：避免偏见的影响(特别是等级评定)。防止效标污染。效标污染由于评定者知道测验分数而影响个人的效标成绩的情形。（三）构想效度1.定义：测验的构想效度是指测验能够测量到理论上的构想或特质的程度。也称为结构效度。所谓构想通常指一些抽象的、假设性的概念或特质，如智力、创造力、言语流畅性、焦虑等。这些构想往往无法直接观察，但是每个构想都有其心理上的理论基础和客观现实性，都可以通过各种可观察的材料加以确定。构想效度关注的问题是：测验是否能正确反映理论构想的特性。2.确定构想效度的步骤(1)建立理论框架，以解释被试在测验上

12、的表现；(2)依据理论框架，推演出各种有关测验成绩的假设；(3)以逻辑和实证的方法来验证假设，根据这些累积材料决定这种理论是否能恰当地解释现有材料，如果不能作出恰当解释，则应该修正上述假设，直到能作出恰当的解释为止。3.收集有关结构效度资料的方法P177(1)测验内方法这类方法主要是通过研究测验内部构造(如测验的内容、对测题反应的过程，以及项目间或分测验间的关系)来界定所测量的结构范围。举例：o 独生子女“合群性”的结构描述：o 1见老师、小朋友主动匆“招呼与否；o 2是愿意自己独自玩，还是与其他孩子一起玩？o 3言语较多还是较少，见生人时害羞？大方否?o 4在做游戏时，与人交往时，能与人合

13、得来吗？（2）测验间的方法测验间的方法是同时考虑几个测验间的相互关联，从而获知这些测验所共有的特点是什么或这些测验是否测量相同的结构。测验间方法有多种：因素分析；相容效度；会聚效度和区分效度。相容效度相容效度是求一个新编好的测验(即一个需要确定其结构的测验)与另一个已知其结构的测验分数之间的相关。例如，新的智力溯验的分数通常与已作过效度确定的个别测验如斯坦福一比纳智力测验来比较，假如相关高，则两测验所测且的是相同的结构，而且新测验的得分也可像已确定结构的测验的分数一样解释。会聚效度和区分效度坎贝尔(DTCampbell)和费斯克(DWFiske)1959年提出的构想效度的一种考验方法。会聚效度

14、：一个测验与测量相同特质或构想等理论上有关的变量有高的相关。区分效度：一个测验与测量不同特质或构想等理论上不同的变量有低的相关。P184重叠量的计算四、影响效度的因素P185（一）测验的因素1测题中所用词汇和句型不能过于困难。2试题的意思应该清楚。3所编制的测题应该适合所要测量的学习结果。4测题中不能提供额外线索。5测题的编制要合理。6选择题的正确答案不能有明显的组型。7测题数目增加测题的数目8测题的难度要适当。 (1)常模参照测验测题平均难度应在0.5左右，并有适当的难度分布。 (2)标准参照测验测题难度应该与教学目标的要求相一致，不需要区分学生的优劣，（二）测验实施和计分方面1.测验情境，

15、如场地的布置、材料的准备等。2.是否遵照测验使用手册的各项规定进行标淮化的施测。3.指导语是否已将答题方式说明清楚；4.是否按要求进行时间限制。(三)被试的主观方面被试的兴趣、动机、情绪、态度和身体健康状况以及是否充分合作与尽力而为等，都会影响到测验结果的可靠性和正确性，即效度和信度。（四）进行效度化所依据的有关准则效度系数值受到三方面影响：测验信度、准则变量测量的信度、预测变量与准则变量间真正的相关程度（五）样组方面1样本的代表性2样本规模：3样本的异质性总的来说，提高效度必须对测验编制和实施标准化。五、效度与人才选拔P1901.基本概念（1）基础率：在总体中自然存在的合格人员比例。（2）录

16、取率：采用测验作为筛选工具时所录取的人员比例。录取率=录取人数/总人数（3）取舍正确性命中正确的接受和正确的拒绝失误错误的接受和错误的拒绝（4）正命中率（录取正确率）2.各比率值之间的关系（1）临界分数越高，正命中率也越高，但录取率降低。（2）随录取率增加，取舍正确性比率先增后减。（3）临界分数的中间范围内，取舍正确性比率最高。P173信度和效度的关系（1）信度考虑的是随机误差的影响，而效度的误差还包括系统误差。例：游标卡尺，钢琴（2）信度是效度的必要条件。效度高必然信度高，但信度高并不保证效度必然会高。效度的最大值是信度系数的平方根。例：磅秤测量身高；南辕北辙难度被试通过每个项目的百分比。P

17、34测验题目的难度水平影响到测验的客观性。天花板效应(ceiling effect)测验题目过于容易，致使大部分个体得分普遍较高的现象。地板效应(floor effect)测验题目过难，大部分个体得分普遍较低的现象。(一)什么叫项目的难度P202所谓难度，即项目的难易程度。在能力测验里，称为项目的难度水平；在非能力测验里，称为“通俗性”或“流行性”水平(popularity level)。所谓“通俗性”或“流行性”，并不是指“合乎社会需要的东西”，而是指一总体中被试在答案范围里回答项目的程度。（二）难度的指标以受测者答对或通过每个项目的人数百分比，作为难度的指标。这里P代表项目难度，N为全体受

18、测者人数，R为答对或通过该项目的人数。P值大小与难度高低成反比。项目难度的判断标准：容易：0.851.00中等：0.500.84困难：0.000.49（三）难度的计算1.二分法记分的项目通过记1分，错误记0分。简便方法：先将受试者依照测验总分的高低次序排列，然后划出高分组（27%）和低分组（27%），再分别求出此两组在每一题目上的通过率，以两组通过率的平均值作为每一题目的难度。计算公式：难度水平的矫正：为了避免猜测的影响，利用下述公式对难度水平加以矫正：这里CP为校正后的通过率，P为实得的通过率，K为备选答案的数目。2.当测题不是二值计分时P=全体考生的平均分数/满分分数鉴别力不同水平的被试通

19、过每个项目的百分比，用来衡量测题对不同水平被试区分程度的指标。P34通常以得分最高的27%的被试（高分组）与得分最低的27%的被试（低分组）答对该题的人数比率之差（D）来衡量。D值越大，项目鉴别力越大，表示项目的质量越好。鉴别力（或称区分度），指项目对不同水平的被试反应的区分程度和鉴别能力。P208鉴别力能帮助研究者发现如下项目：模棱两可的答案出错的太简单或太难的没有区分度（不能测量个体差异）的1.项目鉴别指数把被试按总分高低排序，然后取高分组（27%）和低分组（27%），再分别求出此两组在每一题目上的通过率，以两组通过率的差作为每一题目的鉴别指数。 D=PH-PLPH：高分组答对人数的比率；

20、PL：低分组答对人数的比率。标准化测验中，27%的高分组和低分组的人数都应不少于100人，或总人数不少于370人。D值越大，项目的鉴别力越大，表明项目的质量越好。测题的鉴别指数优劣评价标准：区分度较好：0.311.0区分度一般：0.10.30区分度较差：负数到0.19P217实例1.智龄（MA）P44智龄即智力年龄(Mental Age,简称MA)，指每一个年龄(段) 应该完成的难度最适宜的题目个数(即该年龄恰好有60的被测者能完成的题目)。2.比率智商P45智商即智力商数（Intelligence Quotient,简称IQ）,用来表示智力的相对水平，亦即反映人的聪明程度。智商(IQ)=智力

21、年龄(MA)/实足年龄(CA)*100比率智商是斯坦福比奈智力量表中使用的智力判断术语。比率智商（1）公式：（2）问题高年龄组儿童的智商，其实际年龄无法确定。智力生长是曲线，智龄不是等距单位，求高年龄组智商就需要对实际年龄加以修订。如果各年龄组的标准差编制的不相等，则一个儿童在各年龄所得的智商不相同，这样智商在不同年龄组的意义就不同了。P2473.离差智商离差智商实际上是同年龄组的标准分，是根据同年龄组测得的平均数和标准差计算而得出来的。离差智商是韦克斯勒智力量表中使用的智力判断术语。基本原理：把每个年龄阶段儿童的智力分布看作是常态分布，某个儿童的智力高低，视其与同年龄伙伴智力分布的均数的离差

22、大小而定。（3）计算第一次转化：第二次转化：智力的理论：二因素说P75斯皮尔曼(Spearman,1904)提出，智力分为两类：（1）一般因素(G因素)：代表个人的普通智力是一切心智活动的主体和智力的基础，个体间智力的差异决定于G因素量的多寡。（2）特殊因素(S因素)：代表个人的特殊智力，只有在某些特殊情况下(特殊工作或特殊活动)才会表现出来。吉尔福特的智力结构立体模型P77美国著名心理学家吉尔福特(J.P.Guilford,1959)用内容、操作和产品三个维度建构了智力结构的立体式模型。内容维度：引起个体心智活动的各种刺激物，包括图形，符号，语义，行为，听觉操作维度：智力的加工活动，包括评价

23、，发散思维，聚合思维，记忆，认知产品维度：智力活动的结果，包括单位，类别，关系，系统，转换，蕴涵卡特尔的流体智力和晶体智力理论P78美国心理学家卡特尔（R.B.Cattell)于1963年到1971年，相继完整地提出了流体智力和晶体智力理论。（1）流体智力：信息加工和问题解决过程中洞察复杂关系的能力，是个体的生物潜能。如：对关系的认识、类比、演绎推理的能力、形成抽象概念的能力等。流体智力在不同的环境和条件下都会显示出来，因而是一种普遍性能力，它更多地依赖于遗传，在个体发育的早期就有明显地发展，14岁左右达到高峰，成年后逐渐衰退。（2）晶体智力是指知识与技能有效结合的一种能力，主要用于完成某种固

24、定的任务。晶体智力更多地依赖于环境的作用，决定于后天的学习，与社会文化有密切的关系。晶体智力在人的一生中都在发展，但到2530岁之后，发展的速度渐趋平缓。斯滕伯格的智力三重结构理论P80这一理论包括智力的三个亚理论，即智力的情境亚理论、智力的经验亚理论和智力的成分亚理论。（1）智力的情境亚理论认为社会文化大背景对智力内涵有制约作用，智力主要体现在主体对环境的适应、选择和改造的能动作用方面。（2）智力的经验亚理论智力行为要由产生这个具体行为的任务在主体经验中所处的位置来决定。处理新异性的能力和加工自动化的能力是智力的最基本的特质之一。（3）智力的成分亚理论（核心）阐述智力活动的内部结构和心理机制

25、。成分：信息加工的最基本单元。操作成分：智力任务实施过程中的具体信息加工过程，如编码、推断、应用、比较、证实等具体操作成分。执行元成分的指令并提供反馈。元成分：在问题解决过程中的计划、监控和决策等高级的意识活动，如选择信息加工成分、选择信息加工成分的组合策略、决定注意资源的分配等。知识获得成分：获得新知识的过程，包括学习成分、保持成分和迁移成分。戴斯等的智力PASS模型理论P81（1）PASS模型四种认知成分计划-注意-同时性加工-继时性加工（2）PASS模型中的三个系统：注意一唤醒系统（第一机能区）使大脑处于一种适宜的工作状态。同时性加工一继时性加工系统，又称编码系统（第二机能区）负责对外界

26、输入信息的接收、解释、转换、再编码和存贮。计划系统（第三机能区）执行计划、监控、评价等高级功能。（4）DN认知评价系统（DN-CAS）：第一分测验(测查计划性功能系统)：视觉搜索(visual search)计划连接(planned connection)数字匹配(match number)；第二分测验(测查注意一唤醒功能系统)：表现的注意(expressive attention)找数(number finding)听觉选择注意(auditory selective attention)；第三分测验(测查同时性加工成分)：图形记忆(figure memory)矩阵问题(matrics)同时性

27、的言语加工(simultaneous verbal)；第四分测验(测查继时性加工成分)：句子重复(sentence repetition)句子问题(sentence question)字词回忆(word recall)P121 投射在心理学上指个人把自己的思想，态度，愿望，情绪，性格等人格特征，不自觉地反应于外界事物或他人的一种心理作用，即个人的人格结构对感知、组织、解释环境的方式发生影响的过程，是个人的情结对外界事物的影响，也是个人从一种经验出发作出的错误推断。投射测验：通过提供一些未经组织的刺激情境，使用意义不明确的各种图形、墨迹或数字，以没有结构性的测题，让受试者在不受限制的情境下，自由

28、地作出反应，由对反应结果的分析来推断其人格。主要测验工具：罗夏墨迹测验，主题统觉测验，完成句子/文字联想测验，绘画（画人、画树）测验等。3.投射测验与其它人格测验的差异（1）投射测验就是给被试一个模糊而暖味的刺激情境，使用非结构的任务，使被试有一个机会来表示出内心的需求，以及许多特殊的知觉，和对该情境所作的许多解释。（2）人格调查测验是有若干标准化了的问题，要被试回答其在一些不同的情境中是何感情和活动。而投射测验不能告诉被试测验的目的，只告诉这是一种想象测验，测量目标具有隐蔽性，它只是提供给被试相当自由的情境，使其有充分表示知觉上个别差异的机会，减少伪装可能性，让被试间接说明他自己。(3)投射

29、测验注重整体人格的分析，具有解释的整体性，而一般的人格测验，往往只能测量某些人格特征。此外，投射技术可以用来考察个人的智能、创造力、解决问题的能力。1.优点：通过投射技术可以使被试不愿表现的个性特征、内在冲突和态度更容易地表达出来，因而在对人格结构、内容的深度分析上有独特的功能。投射技术在临床领域有一定的应用前景。2.批评由于投射测验结果的分析一般是凭分析者的经验的主观推断，缺少充分常模资料，测验结果不易解释，其科学性有待进一步考察。原理复杂深奥，经专门训练才能使用。投射测验在计分和解释上相对缺乏客观标准，难以量化，人为性较强，不同的测验者对同一测验结果的解释往往不同，并且，投射测验的重测信度

30、也很低。信效度难以建立。投射技术是否能真正避免防御反应的干扰，在研究上并未得出一致结论。3.投射测验在应用时不便之处1)一般为个体测验，测验和分析结果所需时间很长，实施起来耗费精力。2)对主试和评分者的要求很高，一般只能由经验丰富、有专业背景的人担当。这种局限使一般的人事管理人员无法直接应用投射测验，测验的传播受到影响。3)对投射测验结果的评价带有浓重的主观色彩，不能满足人事测验的公平性原则。标准分数常模P2461.线性转换的标准分数z分数(z score)最典型的线性转换的标准分数，它是指以标准差为单位所表示的原始分数与平均数的差距。z=(X-M)/SD，其中，X为原始分数；M为平均数；SD

31、为标准差。由于z分数中会出现小数点和负值，而且单位过大，所以通常又将z分数转换成Z量表分数，转换方法是： ZA十Bz Z为转换后的标准分数，A、B为常数。由于加上或乘以一个常数并不改变量表中的比较关系，所以Z分数与z分数是同质的。例如：IQ分数实质上就是一种Z分数，其平均分为100，标准差为10。(IQ100十10z)标准九标准九是另一较知名的标准分数系统，其量表是一个9级的分数量表。它以5为平均数，以2为标准差。标准九即标准化九分制的简称，它广泛用于美国空军和某些教学情境中的分级。标准九将原始分数依据百分等级区分成9个等级，最高分为9分（最高的4%），其次8分（7%），最低分为1分（最低的4%），5分（20%）位于分布的中心。除1分和9分外，其余每个分数均包括半个标准差的范围。标准十分(卡特尔的16人格因素中使用)：平均数为5，标准差为1.5。标准二十分:平均数为10，标准差为3。

展开阅读全文