资源描述
心理测量复习
第一章 心理测量和测验的历史回顾
1.中国古代先哲的观点和贡献:
孔子:智力水平的高低对人分类;——上智、中人、下愚
孟子:心理活动可以测量;
庄子:提出创设情景来测量人的心理、行为
杨雄:提出根据人的反应速度来判断人的智力水平的高低;
刘劭《人物志》:对人的能力和个性把人的才能分成12种;
董仲舒:一手画方,一手画圆,莫能成。(测量注意力的分配);
科举制度:官方举贤考试制度,中国是考试之乡;
七巧板:又称益智图,是操作性的创造力测试;
九连环: “中国式的迷津”,复杂的问题解决任务;
2.西方近代先驱:
( 冯特:实验情景的控制对测验标准化的启发;用实验的方法对感知觉进行测量。
高尔顿:1893年在《人类才能及其发展研究》,首次提出“测验”和“心理测量”。
卡特尔:1890年《心理测验和测量》提出测量在心理学研究中的地位和编制测验的基本原则。)
3.比奈为什么能成功:
比奈被称之为心理测验的鼻祖,无愧于这一称号。由于比奈的努力,世界上第一个真正意义上的智力测验得以诞生。比奈的成功既是建立在先驱者们探索性工作的基础上,同时也体现了他自己的创造性的贡献。吸取了前期工作的失败和经验。
比奈认为:智力包含所有高级心理活动过程,表现在推理、判断以及运用旧知识解决新问题的能力上的观点,研究一般智力,以年龄为准绳。
(4.第一个智力测验和团体测验:
第一个智力测验:1905年比奈与助手西蒙(Simon)在“心理学报”上发表了题为《诊断异常儿童智力的新方法》论文,介绍了比纳—西蒙智力量表,此量表也称1905量表,宣告了科学心理测量的诞生。此量表的特点:30个测验项目,排列由易到难,初具年龄量表观念。
团体智力测验:1917年为美国一战筛选士兵。陆军A式量表(文字)和陆军B式量表(非文字)。)
第二章 心理测量和测验的基本介绍
4.什么是测量,测量的内容和要素:
定义:根据法则给客体或事件指派数字。给客体的属性、而非客体本身指派数字。
成分内容(三个):
测量的对象:事物的属性或特征。
测量的结果:描述事物属性的数字或符号。
测量的法则:如何进行测量的方法或标准,即在测量时事物属性分派数字的依据。
二个要素: 1.参照点:相对参照点、绝对参照点。
2.单位:单位是否统一,是否等距。
5.测量的水平和量表类别:
①名称量表——类别测量
对事物进行分类,每个事物或回答对应不同的数字,而数字或符号不具有意义上的顺序性。
②顺序(等级)量表——等级测量
给事物的属性划分等级,赋予的数字具有顺序性。
③等距量表——等距测量
单位是等值的,赋予的数字具有等距性,但没有绝对零点,只能加减,不能乘除。
④比率量表——比率测量
具有顺序性、等距、绝对零点
6.心理测量的定义、特点和方法:
心理测量的定义:
根据一定法则给通过测验收集而来的行为样本指派数字。
依据一定的心理学理论,使用一定的操作程序(心理测验),对人的行为或心理特质进行定量的描述。
特点:间接性、相对性。
测量的方法:实验法、观察法、测验法。
7.什么是心理测验:
定义:心理测验实质上是对行为样本的客观和标准化的测量。
心理测验的三要素:
行为样组:心理测验只能选取与心理特征有关的部分行为进行测量,根据测量到的这部分行为来推测与之关联的心理特征。这部分(一组)行为就是行为样组。
标准化:测验的一致性,即测验的编制、实施、记分、解释的程序的一致性。
目的是保证测验的条件对所有被试相同,测验结果方才具有可比较性。
客观:包括测验的实施、记分、解释的客观性,不受个别研究人员的主观支配。
9.心理测验的种类:
根据测量对象分
认知测验:智力测验、能力倾向测验、成就测验、创造力测验
人格测验:性格、气质、情绪、动机、态度、兴趣等
10.衡量客观性的指标:
信度:测验结果的可靠程度。多次测量的结果接近或一致,测量的结果可以重复。
效度:测验结果的准确程度,测验测量到欲测特征或功能的程度。
项目难度:是总体中被试在答案范围内回答项目的程度。在成就或能力测验中,被称为项目的难度水平;在非能力和成就测验中,例如人格测验,称为“通俗性”或“流行性”水平。
鉴别力:项目的鉴别力又称区分度,表示项目对不同水平的被试反应(回答)的区分程度和鉴别能力。
常模:标准化样组的测验作业情况,通常通过该样组的平均分数和标准差而获得。是各种导出分数,由于这些导出分数具有统一的单位,所以它能比较各种不同的分数。根据被试导出分数在常模上的位置,可以判断其水平/程度的高低。
第三章 智力测验
11.智力测验的结果:
智龄:根据同龄被试能回答的平均(一般)水平(项目数量)来确定项目对应的年龄——智龄,遂可以根据某个被试回答出来的项目来确定其智力的高低。
比例智商:推孟在修订S-B量表第二版时,为了能比较不同儿童之间的智力高低,采用智龄除以实足年龄的办法来获取比率智商。
智龄(MA)
实龄(CA)
IQ= ×100
离差智商:韦克斯勒在编制其智力量表时,通过离差来计算智商。其实质就是把个体的测试结果(原始分数)与其同年龄样组的平均水平(平均分数)相比较(相减),再除以标准差,然后经过再次转换而得到的标准分数。
XSS-X( —)SS
IQ=100+15
SSS
X1-X( —)
X2=10+3
S
12.韦克斯勒对智力水平的分类:
130以上 极优秀(超常)
120~129 优秀
110~119 中上
90~109 中等
80~89 中下
70~79 边缘水平
70以下 智力落后
13.斯坦福—比奈(SB)量表第四版理论框架和测验的组成:
G因素(一般智力)
晶体能力 流体-分析能力 短时记忆
语言推理 数量推理 抽象/视觉推理等因素
斯坦福—比奈(SB)量表的发展概况
Ø 1905量表 30道难度递增的项目
Ø 1916量表 年龄范围扩增,项目增加,引入IQ概念
Ø 1937量表 复本形式,内容增加
Ø 1960量表 弃用:IQ概念 增添:离差智商 合并L和M形式
Ø 1986量表 第四版
14.韦克斯勒系列智力量表的发展概况
Ø 1939——成人量表
Ø 1949——学龄儿童智力测验(WISC)
Ø 1963——学龄前和学龄初期儿童智力量表
Ø 1974——修订WISC,推出WISC-R
Ø 1991——修订WISC-R,推出WISC-Ⅲ
Ø 2003——推出WISC-Ⅳ
15.韦克斯勒儿童智力量表第三版(WISC-Ⅲ):
特点:基本结构和内容不变
重要改进:四个因素(言语理解 知觉组织 克服分心 加工速度因子)
增添一个分测验-符号搜索
制定了新常模
调整了测题、改进了测验材料
分测验的因素分析结果(p61)
第四章 人格测验
人格测验的种类:
①问卷式测验:
测验以经过标准化处理的量表形式出现,一般要求被试回答多道问题(通常选择答案)。
分类: 自陈量表(内容效度 因素分析 经验校标)
评定量表
②投射测验:
让被试在不受限制的情况下,自由地对意义不明确的刺激(比如图形、墨迹或数字等)作反应,然后通过分析反应推断其人格特征。
对自陈量表的评价:
优点:结构明确,施测简便,计分客观,解释比较客观和容易。
缺点:存在反应偏差。反应偏差分为:反应定势和反应形态。
对策:对反应定势的对策:
⑴在编选题目时应尽量选择不诱发假装倾向的题目,减少测题的社会评价意义,避免引起心理防卫和反感。
⑵选择表面效度与内容效度适当分离的题目。
⑶在量表的名称上做文章。为人格量表加上掩饰性的名称,尽量不使量表名称诱发被试的防卫心理。
⑷在安排测题的选答方式时,可以把社会期望程度相同的两个项目配成一对,让被试必选一个。
⑸创设使受测者老实回答的情境,如指导语或权威暗示等。
⑹在量表中设置“防伪题”组成各种“防伪量表”。
对反应形态的对策:
⑴在选题时,将“是”和“否”反应计分的题目各选一半。
⑵一方面要设法控制回答的误差;另一方面在使用测验资料时也需考虑到误差的存在。为此,就要测定回答的误差,开发出即使有回答误差也能找出有效结论的方法。
投射测验的概念和原理:
概念:让被试在不受限制的情况下,自由地对意义不明确的刺激(比如图形、墨迹或数字等)作反应,然后通过分析反应来推断其人格特征。
原理:经验上看就是让被试在不经意的情况下流露真情/真实心理。
理论上以精神分析流派的无意识理论为基础并借鉴了人格的刺激—反应理论和知觉理论。
优点:
刺激材料结构含糊(非结构化)——被试反应不受限制;
测量目标具有隐蔽性,减少被试的伪装(反应定势);
解释具有整体性。
缺点:
原理复杂,操作困难;
评分缺乏客观性,量化困难;
缺少充分的常模资料,解释困难;
测验的客观性指标不易建立;
著名的投射测验:罗夏墨迹测验。
第五章 信度
25.信度的意义和操作定义:
意义:测验需要具有可靠性保证,即在相似情景下,相同个体多次重复测验的测量结果是一致的,或者是可重复的。
操作定义:信度就是对测量一致性程度的估计。随机误差越大,信度越小。
26.信度的定义和表达式:
信度是指一组测验分数中真分数方差与实测分数方差的比率。
rtt=1-
rtt=
S∞2 Se2
St2 St2
27.估计信度的方法:(计算会给公式,需要自己计算标准差)
标准差是样本方差的算术平方根。
样本方差是指:各个数与平均数的差的平方的平均数。
如:一列数分别为X1,X2,X3,…,Xn;设平均数为m.则:
方差S^2=(1/n)*[(X1-m)^2+(X2-m)^2+(X3-m)^2+(…)^2+(Xn-m)^2]
标准差S=√(S^2)
重测信度:是一组被试在不同时间用同一测验测量两次,两次测验分数之间的相关系数。
rtt=rX1X2=
ΣX1X2-ΣX1ΣX2/n
ΣX1-(ΣX1)2/n
2
ΣX2-(ΣX2)2/n
2
一段时距
测验 再测验
其中,X1、X2分别代表首测和再测分数
最短时距
复本信度:估计的是两个假定相等的复份测验之间的一致性,是两个平行测验分数的相关。
rtt=rX1X2=
ΣX1X2-ΣX1ΣX2/n
ΣX1-(ΣX1)2/n
2
ΣX2-(ΣX2)2/n
2
测验复份A 测验复份B
其中,X1、X2分别代表测验复份A和测验复份B
内在一致性信度:测验既无复本,也不可能重复测量时,我们常用内在一致性系数来估计测验的信度。这类系数反映的是测验内部的一致性。
28.内在一致性系数的估计方法:
rhh=
ΣXoXe-ΣXoΣXe/n
ΣXo-(ΣXo)2/n
2
ΣXe-(ΣXe)2/n
2
分半法:分半法通常是先把一份测验按题目的奇偶序或其他方法分成两个尽可能平行的半份测验,然后计算两半之间的相关,即得到分半信度系数。
2rhh
1+rhh
rtt=
由于半分法很可能低估原长测验的信度,所以需要再用斯皮尔曼-布朗公式对分半信度系数进行修正,就可以获得修正后的信度,即原长测验的信度估计值。
基于项目协方差的方法:
rtt=( )( )
n
n-1
St-Σpq
St
2
2
库德(Kuder),理查逊(Richardson)针对分半法的不足之处,提出以项目统计量为转移,利用每道测题方差来计算信度,提出了适用于0、1记分的K-R20公式。
式中,n是测验项目的数目,p是项目通过率,q是项目未通过率,St2是整个测验的总分方差。
α系数适用于非0,1记分的内在一致性系数。2
St-ΣVi
St
n
n-1
2
α=( )( )
式中,Vi是测验每个项目的方差。
评分者信度:(不要计算)评分者信度是由多个评分者给一组测验结果评分,所得各个分数之间的一致性。
什么是误差?测量误差和系统误差概念?哪个对信度有影响?
随机误差的来源:(能够举例说明 P145--P146)
测验本身、测验实施、被试
①测验本身引起的:
题目取样不当
题目格式不妥
题目难度过高或过低
语意含混不清
测验时间过短
②测验实施引起的:
物理环境
主试
意外干扰
评分不客观,计算、登记有误
③被试引起的:
应试动机
焦虑等情绪
生理因素
学习、发展和教育
测试经验
29.测验长度的影响:(不要求计算)
其它条件不变时,测验长度越长,即题目越多,信度就越高,测验长度增加,信度就随之提高。
斯皮尔曼—布朗通式
rnn=
n r11
1+(n-1)r11
、n是可能测验长度与原测验长度的比率,r11是原测验信度系数,rnn为测验增长成原来的n倍时的信度估计值。
31.测量的标准误差:(计算,不要置信区间)
第六章 测量的效度
39.效度的含义:
效度就是一个测验对其所要测量的特性测量到什么程度的估计。
效度是指在实测分数方差中由测量特性引起的方差所占的比率部分
效度的种类(验证方法,途径):
大致有三:内容效度、结构效度、准则关联效度
40.内容效度:
含义:内容效度评估即测验题目在有关内容或行为范围取样的适当性。关注的是测验内容。
验证内容效度的方法:
专家评判(常用方法)、重复试验、重测等。
专家评判的基本研究程序:
1界定所要研究行为的领域/范围(比如在成就测验里就用教学目标表来界定行为领域)
2选择一组在该领域具有资格的专家(非测验编制者)
3提供测题与行为领域匹配的结构化框架(请专家根据匹配的框架——匹配的规则,来评定测题与行为领域是否匹配以及匹配的程度)
4收集并总结通过匹配过程得到的数据(判定题目与行为领域匹配的情况、测验与行为领域匹配的情况)
41.结构效度:
定义:
结构效度就是测验测量到其所欲测量的结构或特质的程度。
验证结构效度的过程(程序):
1 在理论支持的基础(介绍理论本身以及结构的语义定义)上明确叙述假设(预期在结构上有差异的人在人口统计特征、行为准则或与准则有关的其他结构的测量上有什么样的差异)。
2 选择或编制测量工具,由能够表征具体行为的测题构成,而这些行为是结构的特殊具体的显现。
3 收集能够检验假设的实践资料。
4 判断资料与假设是否一致,并考虑是否能用其它理论或相反理论来解释观察结果。
准则关联效度:
是测验对某一行为表现(准则)的预测能力的高低,通常用测验分数和准则分数之间的相关系数来表示。
准则:
准则:某种能够显示测验欲测特征的变量,被用作检测、评定效度的参照尺度。
准则关联效度的估计方法:(求相关系数)p180
运用相关方法进行效度系数的估计;
样组的分类/组间差异的检验;
取舍正确性(命中率)和正命中率等。
41.计算效度系数(掌握计算):
即测验分数与准则分数之间的相关系数
(1)积矩相关系数(极差相关):
适用于测验分数和准则分数都是连续变量的情况。公式(P180 6.3b)
(2)点二列相关系数:
适用于两个连续变量,其中一个变量被人为分成两个类别,如测验通过与不通过、学校是重点与非重点。然后计算这两个变量之间的相关的情况。公式(P182 6.4)
影响效度的因素:
测验本身的因素(题目不要太难,意思要清楚)
测验实施和记分(场地布置,材料准备和答题指导语是不是清楚)
被试本身(兴趣,情绪,动机)
计算准则关联效度所依赖的准则
影响信度的因素肯定影响效度。
效度的应用(P188-189 例子):
Y=bYXX+aYX
^
45.回归方程的建立(回归系数计算和截距计算):
Y( ^) 表示预测的准则分数,X为预测变量的(测验)分数
bYX是准则变量向预测变量回归的系数,且bYX=rYXSY/SX
aYX是回归线在纵轴上的截距,且aYX=Y(—)-bYXX( —)
Y(—)、X( —)分别是准则测量分数的均数、预测测验分数的均数。
预测误差的计算(不考置信区间)
掌握4个概念
l 基础率——总体中自然存在着(在准则变量上)的合格人员的人数占总体的比例。
l 录取率——用预测测验进行测试后,被录取的人员数量占总体的比例。
l 取舍正确率——通过预测测验正确录取的人员和正确拒绝的人员数量占总体的比例。
l 正命中率——正确录取的人员占被录取人员数量的比例。
第七章 项目分析
47.项目的难度:
定义:
难度是总体中被试在答案范围内回答项目的程度,在成就或能力测验中,被称为项目的难度水平。
分组法:
首先需要把所有被试按照总分的高低进行排序,然后把处于总分高端(正数)27%的被试作为高分组,总分处于低端的(倒数)27%的被试作为低分组。分别计算出高分组和低分组答对某个项目的百分比( 和 ),然后计算这两个量的平均值。
公式:
计算:
1.分组法
项目采用二值记分时(题目的答案只有对错两种情况,分别记为1和0分):
计算公式(需熟记,考试不给):
式中,P是某测题的难度,R是答对该题的人数,N是参加测验的总人数。
2. 计算通过率
项目的鉴别力又称区分度,表示项目对不同水平的被试反应(回答)的区分程度和鉴别能力。
估计方法:1 项目的鉴别指数(D值)会计算 2.方差法 3.项目与总分相关
项目的鉴别指数:
把被试按测验总分的高低进行排序,然后取得分高的前27%的被试作为高分组,得分低 的后27%被试作为低分组。分别计算两组各自答对某项目的人数比率,然后代入下公式,计算该项目的鉴别力。
公式: D=PH-PL
D值 测题评价
0.4以上 优良
0.30~0.39 良好,可修改
0.20~0.29 尚可,需修改
0.19以下 劣,须淘汰
第八章 量表与常模
发展性常模含义:
发展量表表示个体按正常途径发展,其心理特征方面处于什么样的发展水平。
发展常模就是把不同年龄阶段的平均表现制成常模,故又称年龄常模。
发展量表的种类:
智龄:
以年龄作为尺度来衡量一个人的智力水平。为每个年龄水平都编制一些适当的题目,得到评价儿童智力发展水平的年龄量表。那么某个儿童在年龄量表上得到的分数,就是最能代表其智力水平的年龄,即智力年龄,简称智龄。
年级当量(grade-equivalent):
不少教育成就测验用年级水平(年级平均数)来表示学生已具有的成就水平。
年级量表的获得: 计算各个年级学生在某份测验上的平均原始分数。
顺序量表:按照行为发生的一定顺序来判断发展的正常与否。
发展量表总评:
优点:
易于理解
个体可以与同等团体做直接比较
为个体的纵向比较提供了基础
缺点
不适合成人
适用于典型环境下成长的儿童
发展量表的单位不相等
相同的结果不一定对应着相同的心理发展水平或学业水平
比率智商
组内常模:
就是把个体的分数与测验范围内的整个团体作比较,以此来确定水平的高低或能力的强弱,组内常模有各种形式。
种类:
百分等级(它表示的是在常模团体中得分低于该百分等级对应的原始分数的被试的百分比。)
标准分数
以平均数为参照点,标准差为单位的一种量表分数,它将原始分与平均数的距离以标准差为单位来表示。
(Z分数、T分数、离差智商)等。
展开阅读全文