心理测量学知识-新教材年秋.ppt

资源描述

,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,常态（正态）分布,方差、标准差、标准误、抽样误差、随机误差,语文数学,N1 78 75,N2,80 89,N3 60 65,N4 98 90,N5 88 95,N6 46 55,N7 100 90,N8 70 65,N9 96 88,N10 68 70,平均 85 80,附：方差的定义,方差等于差方的平均数,附：标准差的定义,第一节概述,第一单元：,测量与测量量表,一、什么是测量,以,一定的,法则,用,数字,对,事物,加以确定。,二、测量要素,1.参照点：,要确定事物的量，必须有的一个计算的起点。,绝对零点（轻重、长度）,相对零点（摄氏温度、智力）,2.单位,好的单位有两个条件：,确定的意义,（所有人有相同理解）,相同的价值,（相邻两个单位之间的差值相等）,三、测量量表,根据某一法则在一个定有单位和参照点的连续体上把事物的属性表现出来，这个连续体称为量表,1.命名量表,用数字来标记-代号和分类（1代表男、2代表女）（不能做数量化分析）,2.顺序量表,用数字排顺序（名次、等级）（无相等单位、绝对零点；只反映大小程度，不表示真正量和绝对值如测验条目),心理测验一般是顺序量表,但可换算为等距量表。,3.,等距量表,用数字表示大小（c温度）（有相等单位，可相互加减；无绝对零点，不能互相乘除；但可用常数与之加减乘除）,4.等比量表,（长度、重量、时间）（有相等单位、绝对零点；可相互加减乘除）,第二单元：,心理测量的基本概念,一、心理测量的定义,心理学理论一定操作程序观察少数有代表性的行为对某心理特点做出推论和数量化分析,该定义的含义：,1.心理测量的对象是人的行为，只是测量了对测验题目的反应,2.通过少数行为样本来推测某心理特征,3.,测量条件对所有被试都相同,4.测验中得到的原始分数没有任何意义，需要与常模进行比较,二、心理测量的性质,1.间接性,只是通过对测验项目的反应来推论此人的心理特质,特质：个人对刺激作反应的一种内在倾向（如乐群性）,2.相对性有一个连续的行为序列，看被测者处在这个序列的什么位置上,3.,客观性,标准化（3个方面：施测、评分、分数的转换和解释以及结果的推论）,第三单元：,心理测验的分类,一、按测验目的和功能分类,1.智力测验：（包括发展量表）,2.特殊能力测验：音乐、绘画、体育、机械,3.人格测验：如明尼苏达多相人格测验（MMPI)，艾森克人格测验和卡特尔十六种个性因素测验(16PF)等。,二、按测验材料的性质分类,1.文字测验：文字材料,2.操作测验（非文字测验）：,三、按测验材料的严谨程度分类,1.客观测验：刺激意义明确，只需直接理解，不需想象,2.,投射测验,：刺激没有明确意义，需要想象,洛夏墨迹测验,主题统觉测验,四、按测验的组织方式分类,1.个别测验：,2.团体测验：,五、按测验的要求分类,1.最高作为测验：有正确答案或最好的回答，如智力测验、成就测验,2.典型行为测验：没有正确答案，按通常习惯作出反应，如人格测验,第四单元：,纠正错误的测验观,一、错误的测验观,测验万能论,测验无用论（有其理由侵犯个人隐私、宿命论/种族歧视）,心理测验就是智力测验,二、正确的测验观,1.重要的心理学研究方法之一和决策辅助工具,2.作为研究方法和决策工具尚不完善：理论基础不够坚实,第五单元,心理测验在心理咨询中的应用,一、智力测验,比内量表；韦氏成人、儿童、幼儿量表；瑞文测验,二、人格测验,EPQ；16pf；MMPI,三、心理评定量表,包括评定精神疾病症状如精神病评定量表、躁狂状态量表。,评定有关心身症状，如90项症状量表(SCL-90)、焦虑自评量表(SAS)、抑郁自评量表（SDS）,以及应激测量如近年来发展起来的应激有关量表如生活事件量表、社会支持量表、应对量表等,第六单元,心理测量的发展史,一、科学心理测验的产生与发展,高尔顿(Golton)19世纪80提出测量心理差异的方法,卡特尔(Cattel)19世纪90提出测验统一方法并和常模比较,比内-西蒙1905发表第一个正式心理测验（智力）,（一）操作测验发展,（二）团体智力测验发展：一战时美国陆军甲种和乙种智力测验,（三）能力倾向测验发展：,韦克斯勒二十世纪30年代，智力测验,（四）人格测验发展：,1920罗夏测验,1940以后几种重要的人格测验（MMPI、16pf、EPQ）,二、现代,心理测验在我国的发展,我国近代心理测验大约起源于1914年。,二十世纪20-30年代2次修订比内-西蒙量表,1979年以后对国外的量表进行修订，心理测验本土化,第二节测验的常模,第一单元,常模团体,一,、常模团体的性质,由共同特征的人（或者其代表）所组成的群体，用一个标准的分数表示，作为比较的基础。（如SCL90常模中的男性大学生）,在制定常模时，首先要确定常模团体；在对常模参考分数作解释时，也必须考虑常模团体的组成。,常模团体的选择一般包括：确定一般总体、确定目标总体、确定样本,二、常模团体的条件,1.群体的构成必须明确界定：所要测量的群体的性质与特征（如工科大学生）,2.必须是所测群体的代表性样本,（随机取样或分层取样）,3.样本的大小要适当：经济性/可行性；减少误差,样本大小适当的关键是样本要有代表性,（最低不少于30或100个，全国性常模，一般2000-3000人）,4.受时空限制,（需要制定新常模/选择新近常模）,三、取样的方法,取样就是从目标人群中选择有代表性的样本。,1.简单随机取样,（按随机顺序表）,2.系统抽样：目标总体无序可排，无等级结构,（总体数目N，取样n人，则分n段，每段取1，组距K=N/n）,3.分组抽样,（先将群体分组如华东区，再在组内随机）,4.分层抽样：最常用，增加了样本的代表性，在解释测验分数时更为有效。分层比例抽样和,分层非比例抽样,（目标总体先按某变量分层如各年龄段，再在各层随机抽取）,四、常模与常模分数,1.常模：供比较的标准量数，根据标准化样本测试结果得出，用于比较和解释测验结果的参照分数标准。,常模常模分数构成的分布,按照样本的大小和来源：全国常模、区域常模和特殊常模（更小的非典型团体，使被试的结果与最接近的人进行比较）,按照应用标准和分数特征：标准分常模、百分位常模,2.常模分数：导出分数,原始分转换导出分数（如SCL90的T分，有了参照点）,导出分数的特点：有意义的测验量表、与原始分等值、具有相等单位、具有参照点,第二单元：,常模的类型,一、发展常模（亦称年龄量表）,根据人群的平均表现所编制的量表就是发展常模。,年龄量表的基本要素：,（1）一套能区分不同年龄组的题目,（2）一个由各个年龄的被试组成的代表性常模团体,（3）一个表明答对哪些题或得多少分该归入哪个年龄的对照表（常模表）,1.发展顺序量表:可以表明儿童发育正常、超前或滞后,葛塞尔发展程序表：按月份显示儿童的,运动水平,（如16周，能使头保持平衡）、,适应性、言语、社会性,皮亚杰的标准化量表：5岁理解质量守恒、6岁重量守恒、7岁容量守恒,2.智力年龄,比纳-西蒙量表：为每个年龄水平编制合适题目,智力年龄（智龄）=基础年龄（题目全部通过所代表的年龄）+较高年龄水平题目分的月份（超过的每题2个月）,或者：被试原始分，与标准化样本年龄组的平均原始分（常模）比较，获得智龄,3.年级当量（即年级量表）：以10个月为一个年级,教育成就测验，某学生的算术是6年级水平,二、百分位常模,1.百分等级,一个测验分数在常模样本中低于这个分数的人数百分比,2.百分点(百分位数),与上述相反，计算处于某百分比的点，对应的测验分数是多少,3.四分位数、十分位数,百分位数的变式（百分位是将量表分成100份）,四分位是分为4份，中间分别为25%、50%、75%,十分位是分为10份，第一段是1%-10%，最后一段是91%-100%。,三、标准分常模,线性转换：当原始分数是常态分布时,是将原始分与平均数的距离，以标准差为单位表示出来的量表,（,见373页正态分布图,）,Z分是最基本的标准分,分50+10（Z）（T分广泛使用，人格测验中常用）,标准20=10+3（Z）（如韦氏量表中各分测验成绩）,标准10=5.5+1.5（Z）,标准9=5+2（Z）,非线性转换：当原始分数不是常态分布时，通过非线性的常态化过程，往往通过转化成百分等级，获得平均数、标准差，再计算标准分。,四、智商及其意义,比率智商IQ=100*MA（心理年龄）/CA（实际年龄）,离差智商IQ100+15（Z）（韦氏智力量表）,离差智商的优点：统计学基础、反映年龄组中的位置、,理想指标,不同测验获得的离差智商，只有当标准差相同才可比较,（,p372,：表5-1）,专栏5-2：几种导出分数的关系,（,p367-368：,图示）,第三单元,常模分数的表示方法,一、转换表法（常模表）,原始分通过转换表获得导出分数,p369,表5-2,二、剖面图法,可以直观地看出被试在各个分测验上的表现,p369,图5-1,第三节测验的信度,第一单元,信度的概念,一、信度的定义,信度（reliability）又称可靠性，是指重复测验的一致性，也就是指测验的稳定度。,信度只受随机误差的影响,随机误差越大,信度越低。,二、信度的指标,1.信度系数与信度指数,信度以信度系数为指标，常常是两组资料的相关系数,理论上：信度系数=信度指数的平方,2.测量标准误,评估个人测验分数时的变异量，信度越高，标准误越低公式5-5,p371,某测量的标准误SE=某测验的标准差S*,1-信度系数r,信度越高，标准误越小；信度越低，标准误越大。,第,二单元：,信度评估的方法,每一种信度系数只能说明信度的不同方面，因而具有不同的意义。,一、重测信度测验跨时间的稳定性,稳定性系数。两次测验间（2-4周，不超过6个月）的相关系数,二、复本信度测验在内容上的等值性,等值性系数。等值但题目不同的两个测验在同一群体测验后的相关系数（同时做）特例：,重测复本信度（稳定与等值系数）（间隔一段时间后做）,三、内部一致性信度,反映题目之间的关系。,分半信度两半测验题目之间的一致性。会,低估信度。,同质性信度测验所有题目之间的一致性。,四、评分者信度不同评分者之间所产生的误差。,成对的通过训练的评分者之间结果的相关系数（要达到0.9以上),第三单元：,信度与测验分数的解释,一、解释真实分数与实得分数的相关,信度能解释总的方差中有多少比例是由真实分数的方差决定的,即有多少（1-r）是来自测验的误差,二、确定信度可以接受的水平,能力测验0.90以上,人格测验0.80-0.85以上,一般原则：r0.70,测验不可靠不能用;0.70r0.85,可用于团体比较;r0.85,用于个人鉴别或预测,表5-3,p374,三、解释个人分数的意义,某测量的标准误SE=某测验的标准差S*1-信度系数r,一个被试得分的可能范围（95%的置信区间）=实得分1.96*某组测验的标准误SE,P375 例题,四、比较不同测验分数的差异,两个分数的标准误SEd=两个测验的标准差S*2-r1-r2,例子,p375,第四单元：,影响信度的因素,一、样本特征,样本团体的异质性：如全部由高智力者构成，则信度系数低。,样本团体的平均能力水平：例如全由年幼者构成，则 r 低，猜测成分,二、测验长度,同质题目越多，（代表性越好/猜测因素影响减少）信度越高。,三、测验难度,测验对某个团体太难或太易，分数范围缩小，均降低信度,四、时间间隔,重测信度和重测复本信度会受时间间隔影响，时间间隔越短，信度越高,专栏5-3：信度的特殊问题,速度测验的信度：没有评分者信度和同质性信度，有重测信度、复本信度和分半信度（计算方法有区别：按测验时间划分为相等的两部分）。,分测验的信度：受测验长度影响，分测验的分数肯定不如合成分数可靠。,第四节测验的效度,第一单元：,效度的概念,一、效度的定义,效度（validity）即准确性，这是指测验实际上测量些什么，是否符合测验的目的。所测量的与所要测量的心理特点之间的符合程度。,信度是效度的必要条件：,效度高，信度一定高，而信度高，效度却不一定高。,二、效度的性质,1.相对性,不可能全部包容了被测目标。,在评价测验的效度时，必须考虑其目的和功能。,2.连续性,使用相关系数，只有程度上的不同，而非“有效”或“无效”,专栏5-4,一、信度是效度必要而非充分条件,效度高，信度必然高,信度高，未必效度高,二、效度受信度制约,一个测验的效度不会超过其信度的平方根。,理论公式p379,第二单元：,效度评估的方法,一、内容效度,（一）定义：,指测验项目对有关内容或行为取样的适用性，测验题目的取样的代表性。,内容效度并不一定要求测验是同质的，如智力测验。,（二）评估方法,1.专家判断-所以又称,“逻辑效度”,（1）定义测验内容的总体范围,（2）编制双向细目表,（3）制定评定量表来测量测验的整个效度,2.统计分析法（基本上是智力测验）,评分者之间相关（如相关，则反映有一定内容效度）复本相关（低相关，至少有一个缺乏内容效度）,再测法（通过学习，再次测验成绩提高了，说明所学的就是要测的）,3.经验推测法,如儿童对各题目的反应是否随年龄的发展而有所不同,（三）内容效度的特性,与表面效度（由外行人来看）易混淆。最高行为测验要求有较高的表面效度，而典型行为测验要求有较低的表面效度。,二、构想效度（结构效度、构思效度）,（一）定义,反映编制此测验所依据理论的程度。测验能够测量到理论上的构想或特质的程度。,（二）估计方法,1.对测验本身的分析：通过研究测验内部结构,（1）通过内容效度,（2）通过内部一致性指标：分半信度；,系数；,条目-因子相关；分测验与总测验的相关,（3）通过被试反应来分析：例如有道德评判内涵的人格测题，不能过多,2.测验间相互比较：通过分析几个测验间的相互关系，共同处,相容效度证据：与一个测验同一特质的成熟测验之间的相关系数，即为相容效度，可解释两组分数共同解释的变异大小,区分效度证据：与上述相反，与一个测验不同构思的测验无相关性,因素分析法：常用的方法。找到影响一组测验分数的共同因素构想,也可用于一个测验内部（目前经常用）。,3.效标效度的研究证明,*根据效标选取相对照的两组（如内、外向性格），测验结果两组能分开，说明测验的构思效度好者，,*根据测验分数将被试分成高分、低分两组，观察被试行为特点是否与理论构思相吻合,*不同年龄组的递进效果来分析：如智力随年龄发展，测验结果也应随年龄而提高,4.实验法和观察法证实,如通过某项训练被试，使之与提高的测验成绩一致,三、效标效度,（一）概念,*又称实证效度。,测验预测个体在某种情景下行为表现的有效性程度。（被预测的行为是检验效度的标准，简称效标）,*分为：,同时效度,预测效度,*效标的选择：,能最有效反映测验目标,信度高,客观测量,经济,（二）估计方法,1.相关法：测验分数与效标资料间的相关。,当两者都是连续变量，采用积差相关法；当测验分数是连续变量，效标资料是二分变量，用点二列相关或二列相关；当测验分数是连续变量，效标资料是等级评定，用贾斯朋（Juspen）多系列相关公式。,2.区分法：,能否有效区分由效标所定义的团体（如抑郁症和正常人的高分组与低分组的重叠量）图5-2 p384,重叠量越大，测验效度越差。,3.命中率法：以正确决定的比例作为效度指标。P385,正确的预测为命中（如医生的划线与测验的划线）,总命中率=命中/命中+失误,正命中率=测验与效标都成功的人数/测验成功人数,第三单元：,效度的功能,一、预测误差,*决定性系数 r,2,，表示测验正确预测的效标的方差占总方差的比例,（效度如果是0.8，则测验正确预测的占64%）,*,估计的标准误Sest=效标成绩的标准差S*1-效度系数平方,（当效度系数为1，Sest就是零，测验分数可完全代替效标）,p390,二、预测效标分数,从测验分数预测效标成绩,计算式：预测的效标分数=a+b*测验分数（a、b计算式p386）,三、预测效率指数,无关系数 K=1-效度系数平方,反映使用测验比盲目猜测能减少多少误差,预测效率指数 E=100(1-无关系数K),第四单元：,影响效度的因素,一、测验本身的因素,A.材料具有代表性,B.避免容易引起误差的题目（如是否题型）,C.难度适中，区分度好,D.测验长度适当，需要一定的题量,E.应先易后难排序,二、测验实施中的干扰因素,(一)主测者的影响因素（需标准化）,如果是效标效度,那么测验与效标的间隔时间越长，相关系数越低。,（二）受测者的影响因素（兴趣、动机、情绪、心身状态）,三、样本团体的性质,*样本团体的异质性（经过选拔的被试不代表整体）：越异质，效度越高,*干涉变量（性别、年龄、文化、智力、动机、职业）,*寻找干涉变量的方法：,A.通过回归方程求得的预测效标分与实际效标分比较，差异大说,明可能存在干涉变量,B.找出对照组，分别计算效度，分析之,C.区分预测性高的亚团体，效度会有所提高,四、效标的性质,效标本身的信度,第五节项目分析,第一单元：,项目的难度,一、项目难度的定义：项目的难易程度,通过率 P=R（答对人数）/N（全部人数）*100%,P值越大，难度越低。,二、项目难度的计算方法,1.二分法计分的项目,难度P=Ph（27%高分组通过率）+Pl（27%低分组通过率）/2,2.非二分法计分的项目,难度P=全体被试在该题上的平均分/该题的满分*100%,三、难度水平的确定,1.项目的难度,P值越接近于0.50，区别力越高,当测验用于选拔或诊断时，应多选择难度值接近录取率的项目。如果录取率为20%，测验难度最好为20%。,选择试题例外。有猜测成分。（是非题：0.75/四选一题:0.63),2.测验的难度,如果样本具有代表性，测验总分是常态分布的，说明难度适中,如果测验总分是“正偏态分布”，说明难度高；如果测验总分是“负偏态分布”，说明难度低。,p391图,测验中所包含的题目的试题难度最好在0.500.20之间，平均难度接近0.50。,第二单元：,项目的区分度,一、定义,项目区分度又称鉴别力，测验项目对受测者心理特性的区分能力。是项目质量的主要指标。影响效度。,二、项目区分度计算方法,项目得分与实际能力（用测验总分代替）水平的相关程度,1.鉴别指数,步骤：按测验总分高低排列答卷,确定高分组与低分组（27%）,分别计算通过率或得分率（A和B）,鉴别指数 D=A-B,辨别指数0.4以上，区分度好；0.19以下，淘汰 (p392,表5-5),2.相关法,最常用（项目分与总分的相关）。计算方法：点二列相关、二列相关和,相关法。区分度取值范围：-1至+1之间。相关越高，项目越具有区分功能。,三、区分度与难度的关系,关系密切 (见表5-6 p392),第六节项目编制的一般程序,第一单元：,测验的目标分析,一、测验的对象,二、测验的用途,1.显示性测验（测验题目和所要测量的心理特征相似,如成就测验）,分为样本测验（四则运算）和标记测验（智力测验）,2.预测性测验（预测没被测量的行为,如用词汇测验预测学业表现）,三、测验的目标,1.工作分析,对所要预测的行为做具体分析（如测打字能力，需反映手指等灵活性等）,2个步骤：哪些心理特征有助于成功；建立成功的标准效标,2.对特定概念下定义,心理行为特质的内涵（如创造力应反映灵活性、独创性、流畅性、详尽性四个方面）,3.确定测验的具体内容,应选择哪些方面的题目，以及各题目所占据的比重表5-7 P396,第二单元：,测验的编写,一、搜集资料,已经出版的测验、理论与专家的经验、临床观察与记录,二、命题原则,内容：,题目符合测验目的、取样代表性、题目内容独立,文字：,避免生僻字词；语句简明扼要；一句话说明一个概念，意义明确，尽量不用双重否定句。,理解：,不要超出知识水平和理解能力；无歧义,社会敏感方面：,尽量避开社会敏感性问题，不应使用涉及社会禁忌或个人隐私的题目（特地测验的例外）P397,三、编制要领：,题目有2类：提供型（要求给出正确答案）；选择型,1.选择题,题干（直接问句或不完全的陈述句）,选项（只一个正确）,选择题注意事项:（6项 p398）,2.是非题,注意事项：（5项 p398）,3.简答题（3条原则）,4.操作题,明确将测量目标操作化,真实性高的项目,指导语明确,制定评分标准,第三单元：,测验的编排与组织,一、合成测验,1.选择与审定试题,选择试题形式（注意3点）,审定题目（4注意事项）,2.测验的编排,试题难度逐步上升,同类试题一起,各类试题特点排列,两种常见排列方式:并列直进式和混合螺旋式,二、预测验与项目分析,1.预测验（应多备几种）,2.项目分析,三、信度与效度考察,四、常模制订,五、编写指导手册：6个内容,1、测验的目的和功用,2、测验编制的理论背景,3、如何实施测验的说明,4、测验的标准答案或记分标准,5、常模资料,6、测验的基本特征：难度、鉴别力、信度、效度等,第七节心理测验的使用,第一单元：,主试的资格,一、知识结构,二、专业理论与专业技能,三、职业道德,第二单元：,测验的选择,一、适合测量目的,二、测验工具符合心理测量学的要求,第三单元：测验前的准备及注意事项,一、测验前的准备工作,预告测验,准备测验材料,熟悉测验指导语,熟悉测验具体程序,二、测验中主测者的职责,按指导语实施,不多余说话,正确做出反应，避免暗示,特殊问题的心理准备,三、建立协调关系,第四单元：,测验实施的程序及要素,一、指导语,（一）对受测者的指导语,1、如何选择反应形式,2、如何记录这些反应,3、时间限制,4、如果不能确定正确反应该如何操作（是否允许猜测）,5、例题,6、有时告之测验目的,（二）对主测者的指导语,二、时限,大多数典型行为测验没有时间限制，最高行为测验要考虑时间限制。,三、环境条件,务必不能有外界干扰。,记录任何意外的环境因素。,第五单元：,受测者误差及控制方法,一、应试技巧及练习效应（P408）,二、动机与焦虑因素,应试动机：,测验焦虑图5-4 p409：,适度的焦虑可以提高能力测验的成绩,焦虑的影响因素（P410）,三、反应定势,求快、求准确的反应定势,喜好正面叙述的反应定势,喜好特殊位置的反应定势（如多选择C）,喜好较长选项的反应定势,猜测的反应定势,第六单元：,测验的评分,一、原始分数的获取,及时纪录反应情况,要有记分键（标准答案）,将两者比较后给予记分,二、原始分数的转换,原始分常模转化表导出分数（百分位数、标准分等）,第七单元：,测验结果的报告,一、测验分数的综合分析,1、根据心理测验的特点（标准误等）做分析,因为测验误差，被试分数其实在一个区间波动（通常,IQ 5,）,2、不能将分数绝对化，一次结果不可靠（如测验情景）,A.必须考虑个人在测验前的经历,B.需要考虑测验情境,C.除了常模资料，还要有效度、信度资料（效度低者误差更大）,在解释分数时，一定要依据从最相近的团体、最匹配的情境中获得的资料。,D.不同测验分数不能直接比较（常用等值百分位法，都换算成百分等级,将两者得分等值化，再比较；另一种叫线性等值法，是用相同的标准分数作为等值的基础）,二、报告分数的具体建议,1、应告诉对测验分数的解释,不能仅仅只告诉分数,2、避免使用专业术语,3、让当事人知道这个测验测量了什么以及预测什么,4、让当事人知道与什么团体（常模）比较,5、让当事人知道如何运用测得的分数,6、考虑测验分数会给当事人带来什么心理影响,7、让当事人积极参加测验分数的解释,谢谢！,

展开阅读全文