咨询心理学柯茂林2.doc_咨信网zixin.com.cn

资源描述

《测量心理学》要点归纳第一部分测验编制及施测部分一、编制操作测验有四条原则。 1、明确所要测量的目标，并将其操作化； 2、尽量选择真实性程度较高的项目； 3、指导语要简明扼要； 4、制订评分标准，确定计分方法。二、对被试的指导语一般由以下内容组成： 1．如何选择反应形式(划“√”、口答、书写等)； 2．如何记录这些反应(答卷纸、录音、录像等)； 3．时间限制（大多数典型行为测验不受时限限制，最高作为测验中，时限需要考虑）； 4．如果不能确定正确反应时该如何操作(是否允许猜测等)； 5．例题； 6．有时告知被试测验目的。三、测验分数的综合分析。 (一)应根据心理测验的特点进行分析。应该永远把测验分数视为一个范围而不是一个确定的点。如在韦氏智力测验中，通常是用测得的IQ值加减 5 (85%～90%的可信限水平)的方法判断IQ值的波动范围。 (二)不能把分数绝对化，更不能仅仅根据一次测验的结果轻易下结论。 1．为了能对测验分数做出有意义的解释，必须将个人在测验前的经历考虑在内。 2．测验情境也是一个需要考虑的因素。 (三)为了对测验分数做出确切的解释，只有常模资料是不够的，还必须有测验的信度和效度资料。在解释测验分数时，一定要依据从最相近的团体、最匹配的情境中获得的资料。 (四)对于来自不同测验的分数不能直接加以比较。用相同的标准分数作等值的基础，此种方法叫线性等值。四、反应定势。反应定势亦称反应风格，是指独立于测验内容的反应倾向，即由于每个人回答问题的习惯不同，而使能力相同的被试得到不同的测验分数。几种常见的反应定势：一)求“快”与求“精确”的反应定势；二)喜好正面叙述的反应定势；在编制是非题时，“是”“否”题大致相等或答“否”题略多，是控制肯定定势的有效方法。三)喜好特殊位置的反应定势；正确答案的位置在整个测验中出现在各位置的概率相等，就可以控制这种位置定势。四)喜好较长选项的反应定势；在编制测验时，只要我们尽量使选项的长度一致，就不难避免这类问题。五)猜测的反应定势。五、测验的目标分析。测验的目标（目标分析）分三种情况: (一)工作分析。包括两个步骤：第一是确定哪些心理特征和行为可以使要预测的活动达到成功；第二是建立衡量被试是否成功的标准。 (二)对特定概念下定义。 (三)确定测验的具体内容。六、编制及施测部分其他要点。在测量成就、智力和能力倾向等变量时，只有被试动机强烈，才可能尽力回答，取得好成绩；适度的焦虑会使人的兴奋性提高，注意力增强，提高反应速度，从而提高智力测验、成就测验和能力倾向测验的成绩。应试技巧：“测验油子”---能觉察出正确答案与错误答案的细小差别，懂得合理分配测验时间，而且常常是各种题型都见过。为使评分尽可能客观，有三点要求： 1．及时而清楚地记录反应情况； 2．要有一张标准答案或正确反应的表格，即记分键； 3．将被试的反应和记分键比较，对反应进行分类。一般地说，测验的用途可分：显示性测验和预测性测验。测验题目的来源可分为三个方面： (一)已出版的标准测验； (二)理论和专家的经验； (三)临床观察和记录。测验题目分为两大类：提供型和选择型题目。测验题目两种常见的排列方式： 1．并列直进式； 2．混合螺旋式。 2009年5月卷一考题：106、测题常见的排列方式有（　AC　）。（A）并列直进式（B）公共汽车式　（C）混合螺旋式　（D）专列式 2008年5月卷一考题：106、测验题目常见的排列方式有( AC )。 (A)并列直进式 (B)专列式　　(C)混合螺旋式 (D)公共汽车式第二部分心理测量学简论一、测量三个主要元素。测量三个主要的元素：(1)事物；(2)数字；(3)法则。数字:代表某一事物或事物某一属性的量,具有区分性,序列性或等级性,等距性,可加性。由于心理现象不能直接测量，我们要测量的实际是心理现象的外显行为——心理测量往往是对少数经过慎重选择的行为标本进行观察，来间接推知受测者的心理特征。 2009年5月卷一考题：91、测量所用数字具有自然数的特点，即具有（　ABCD　）（A）区分性　（B）等级性　（C）等距性　（D）可加性 2008年11月卷一考题：108．测量的主要元素包括（ ABC ）。（A）事物（B）数字 (C)法则（D）描述二、测量的要素。测量的要素包括参照点和单位。参照点包括绝对零点和相对零点。单位应:1 有确定的定义,不能有不同理解；2 有相等的价值,相邻单位间差距相等。心理测量多采用人为标定的零点. 心理测量的单位既无统一的单位,也不符合等距。三、四种测量量表。斯蒂文斯(S·S·Stevens)将测量从低级到高级分成四种水平，即命名量表、顺序量表、等距量表和等比量表。命名量表只能对事物进行分类，具有区分性。顺序量表能把事物分等，具有等级性。大小关系,数值之间不能加减运算，如比赛排名。等距量表能把事物作等距的分等，具有等距性。不但有大小关系,可相互加减,但因没有绝对的零点,所以不能乘除，如摄氏温度。等比量表既有相等单位又有绝对零点。所得数值可做加减乘除。如体重,身高。心理测量一般在顺序量表中进行，原因在于: 1 人的智力,性格,兴趣,态度等,绝对零点难以确定； 2 心理测量中,相等单位很难获得。 2009年11月卷一考题：55、在顺序量表中，变量具有( C )。 (A)相等单位　　(B)绝对零点　　(C)等级　　(D)可以做四则运算 2009年5月卷一考题：118、等距量表中的数值可以进行（　AB　）运算。（A）加　（B）减　（C）乘　（D）除 2008年5月卷一考题：53、在顺序量表中，变量具有( B )。 (A)相等单位 (B)等级　　(C)绝对零点 (D)等比四、心理测验的性质。 1、间接性:通过外显行为来推论心理特质。 2、相对性:对人的行为作比较没有绝对标准 ,只是一个连续的行为序列。 3、客观性:测验的标准化。 2008年11月卷一考题：107．心理测验具有（ BCD ）。（A）外显性（B）间接性（C）相对性（D）客观性五、测验的分类。 1.按测验的功能分类：智力测验；特殊能力测验；人格测验。 2.按测验方式分类：个别测验（个别测验是临床上最常用的心理测验形式）；团体测验。 3按测验材料分类：文字测验（纸笔测验）；操作测验。 4.按测验的严谨程度分类：客观测验；投射测验。 5.按测验的要求分类：最高作为测验；典型行为测验。目前,心理门诊中运用较多的大致有这样三类心理测验:智力测验,人格测验和心理评定测验。 2009年11月卷一考题：91、按测验的功能，可将测验分为( ABC )。 (A)智力测验　　(B)特殊能力测验　　(C)人格测验　　(D)投射测验 2009年11月卷一考题：118、按测验材料的性质，可将测验分为( AD )。 (A)文字测验　　(B)主题统觉测验　　(C)智力测验　　(D)操作测验 2008年11月卷一考题：106．按测验的方式分类，可将测验分为（ CD ）。（A）操作测验（B）文字测验（C）个别测验（D）团体测验六、测验观。正确的测验观包括： 1 心理测验是重要的心理学研究方法之一，是决策的辅助工具； 2 心理测验作为研究方法和测量工具尚不完善。错误的测验观包括： 1 测验万能论； 2 测验无用论； 3 心理测验即智力测验。七、心理测量学的历史。首先倡导科学心理测验的学者是英国生物学家和心理学家高尔顿:1提出人的气质特点和智能是按身体特点的不同而遗传的；2为了研究差异的遗传性,设计了测量差异的方法,可视为心理测验的开端;3也为心理测验奠定了统计学基础;4第一个提出了相关的概念（他的学生皮尔逊创立积差相关法）。 1890年,美国心理学家卡特尔在《心理》杂志上发表《心理测验与测量》一文,这是心理测验第一次出现在心理学文献中。认为心理学应立足于实验和测量，并认为心理测验应有一个统一的标准。法国心理学家比内1905年与助手西蒙编制了第一个智力测验----比内－西蒙智力量表,是世界上第一个正式的心理测验。极力主张用一种测验的方法去辨别和发现智力落后的儿童。在《心理学年报》上发表《诊断异常儿童智力的新方法》，在文章中介绍了一个包括30个项目的量表。科学的心理测验则是工业革命成功后的19世纪的欧洲发展起来的。 20世纪以后，心理测验的几个发展：操作测验的发展，团体智力测验的发展，能力倾向测验的发展，人格测验的发展。我国始于汉代,兴于隋唐的科举取士制度被中外学者公认为世界上最早的心理测验的实践。我国心理测验大约源于1914年前后.近些年来我国的心理学家正在致力于测验本土化。 2009年11月卷一考题：75、编制世界上第一个正式的心理测验的学者是( B )。 (A)高尔登　　(B)比内　　(C)卡特尔　　(D)奥蒂斯第三部分测验的常模一、常模的选择。常模的选择包括:1 确定一般总体；2 确定目标总体；3 确定样本。常模团体:具有某种共同特征的人所组成的一个群体；或该群体的一个样本。常模团体的条件包括：1群体构成的明确界定；2对群体具有代表性；3样本量大小要适当；4具有新近性。无论是测验编制者还是使用者,主要关心的是常模团体的成员。 2010年5月卷一考题：56、具有某种共同特征的人所组成的一个群体或者是该群体的一个样本，叫做( B )。 (A)团体 (B)常模团体 (C)样本 (D)受测人群 2008年11月卷一考题：55．取样是指从（ C ）中选择有代表性的样本。（A）总体（B）群体（C）目标人群（D）样本二、样本的选择。选择样本从四个方面考虑：大小适当，实用，经济，减小误差。总体数目小,只有几十人,则需要100%的样本。总体数目大,相应的样本要大,一般最低不少于30或100人。全国性常模，一般应有2000-3000人为宜。样本大小适当的关键是样本要有代表性。 2008年5月卷一考题：54、常模样本量的大小，一般不小于( D )。 (A)100或500 (B)800或1000　　(C)20或25 (D)30或100 三、抽样方法。 1、简单随机抽样。按照随机表顺序选择样本。 2、系统抽样。总体数目为N,若要选择1/K的被试作为样本,则选择每K个人来构成样本。第一个第K个人从哪里数起是随机的。系统抽样要求目标总体无序可排,也无等级结构存在。 3、分组抽样。总体数目较大,无法进行编号,且群体有多样性,可将群体进行分组,再在组内随机抽样。 4、分层抽样。将目标总体按某种变量分成若干层次,再从各层次中随机抽取若干被试。包括分层比例抽样和分层非比例抽样。确定常模时,最常用的是分层抽样方法. 2010年5月卷一考题：92、抽样的方法一般包括( ABCD )。 (A)分层抽样 (B)系统抽样 (C)分组抽样 (D)简单随机抽样 2009年5月卷一考题：56、随机号码法是（　A　）。（A）简单随机抽样　（B）系统抽样　（C）分组抽样　（D）分层抽样四、常模与常模分数常模是心理测验时用于比较和解释测验结果的参照分数标准。按照样本的大小和来源，通常有全国常模、区域常模和特殊常模；根据具体应用标准和分数特征，则有百分位常模和标准分常模等。常模分数就是施测常模样本后，将受测者的原始分数按一定规则转换出来的导出分数。 2008年11月卷一考题：56．常模分数又叫（ A ）。（A）导出分数（B）粗分数（C）原始分数（D）总体分数 2008年5月卷一考题：55、常模分数又叫( A )。 (A)导出分数 (B)原始分数　　(C)总体分数 (D)粗分数五、发展常模发展量表中的年龄量表最基本的假设是所测量的特质随年龄有系统地改变。发展常模（年龄量表）包括： 1 发展顺序量表最直观的发展常模是发展顺序量表:多大的儿童具备什么能力或行为就表明其发育正常。最早的一个范例是葛塞尔发展程序表:按月份显示儿童在运动水平,适应性,语言,社会性四个方面的大致发展水平。自20世纪60年代以后，皮亚杰的发展引起重视。皮亚杰最著名的工作是对守恒概念的研究——儿童在不同时期出现不同守恒概念：5岁理解质量守恒，6岁掌握重量守恒，7岁才有容量守恒。 2 智力年龄比内-西蒙量表中首先使用智力年龄的概念。求智龄的方法:A 将儿童在测验上的分数与各年龄组的一般儿童比较； B 先算出基础年龄即全部题目都通过的那组题目所代表的年龄,在所有更高年龄水平上通过的题目用月份计算,加在基础年龄上（修订比西量表）； C 不把题目分到各年龄组,根据被试的原始得分与每个年龄组的平均原始分数比较。 3 年级当量即年级量表,测验结果说明属于哪一年级的水平,在教育成就测试中最常使用。年级当量的单位通常为10个月间隔。4.0表示四年级开始时的平均成绩,4.5表示学年中期的平均成绩。 2010年5月卷一考题：34、发展常模就是( D )。 (A)团体的分数 (B)百分位数 (C)个人的分数 (D)年龄量表 2009年11月卷一考题：56、首先使用智力年龄概念的是( A )量表。 (A)比内—西蒙　　(B)韦克斯勒　　(C)斯坦福—比内　　(D)瑞文 2008年11月卷一考题：105．发展顺序量表可以告诉人们某儿童的发育与其年龄相比（ ABC ）。（A）超前（B）滞后（C）正常（D）以上都不是六、百分位常模。百分位常模包括： 1、百分等级。百分等级是应用最广的表示测验分数的方法,指在常模中低于这个分数的人数百分比。 2、百分点（百分位数）。计算处于某一百分比例的人对应的测验分数是多少。通过最高分和最低分来判别。 3、四分位数和十分位数。百分位数的两个变式。 2008年5月卷一考题：107、百分位常模包括( ABCD )。 (A)百分等级 (B)百分点　　(C)四分位数 (D)十分位数七、标准分常模。标准分常模包括： 1、线性转换的标准分数： z分数（离均值）。最典型的线形转换的标准分数。 X为任一原始分数, X为样本平均数,S为样本标准差。转换形式：Z=A+Bz 加上一个常数（A）是为了去掉负值，乘以一个常数（B）是为了使单位变小从而去掉小数点。常见的标准分数有：T分数、标准九分、标准十分、标准二十分、离差智商。 T分数以50为平均数,以10为标准差；标准九分以5为平均数，以2为标准差；标准十分平均数为5，标准差为1.5；标准二十分平均数为10，标准差为3。离差智商平均数为100，标准差为15。 2、非线性转换的标准分数当原始分数不是常态分布时，可以通过非线性转换使之常态化。八、智商及其意义最早的比内-西蒙量表智力测验是用“心理年龄”来表示受测者智力高低。但是，单纯用心理年龄来表示智力高低的方法缺乏不同年龄儿童间的可比性。比内－西蒙量表传入美国后，斯坦福大学推孟教授于1916年对其修订而成斯坦福-比内量表。它在心理年龄的基础上，以智商表示测验结果，即比率智商。智商(IQ)=[心理年龄(MA)/实际年龄(CA)]x100 由于心理年龄与实足年龄并不同步增长，比率智商并不适合年龄较大的受测者。另外，由于不同年龄组儿童的比率智商分布情况不一样，因而相同的比率智商分布在不同年龄具有不同意义。离差智商是表示个体智力在年龄组中所处的位置，建立在统计学基础上，表示的是智力高低的一种理想的指标。韦克斯勒将平均数定为100,标准差定为15。 IQ＝100＋15 z` =100+15(X-M)/SD X表示被试的量表分数；M表示被试所在年龄水平的平均量表分数；SD表示这一年龄水平被试的量表分数的标准差。由于离差智商的提出，过去曾使用比率智商的许多测验在后来也使用了离差智商，如1960年修订斯坦福-比内测试（平均数为100，标准差为16）不同测验中获得的离差智商只有当标准差相同或接近时才可以比较. 2010年5月卷一考题：57、以50为平均数，以10为标准差来表示的分数，通常叫( C )。 (A)Z分数 (B)标准九分数 (C)T分数 (D)离差智商 2010年5月卷一考题：84、在各类标准分数中，标准十分的平均数为5，标准差为( B )。 (A)3 (B)1.5 (C)10 (D)15 2009年11月卷一考题：105、属于标准分数常模的是( BD )。 (A)百分等级　　(B)T分数　　(C)比率智商　　(D)离差智商 2009年5月卷一考题：34、以50为平均数、以10为标准差表示的标准分数叫（　B　）（A）标准九分数（B）T分数　（C）离差智商　（D）Z分数 2009年5月卷一考题：76、比率智商（IQ）是（　C　）与实足年龄之比。（A）生理年龄　（B）真实年龄　（C）心理年龄　（D）智力商数　 2009年5月卷一考题：105、标准分数可以通过（　AB　）得到。（A）线性转换　（B）非线性转换　（C）分析　（D）变化 2008年11月卷一考题：57．标准二十分的标准差为（ C ）。（A）5 （B）4 （C）3 （D）2 2008年11月卷一考题：58．韦克斯勒将离差智商的平均数定为100，标准差定为（ B ）。（A）16 （B）15 （C）14 （D）13 2008年5月卷一考题：56、以50为平均数，10为标准差表示的标准分，通常叫( C )。 (A)Z分数 (B)标准九分数　　(c)T分数 (D)离差智商九、常模分数的表示方法。（一）转换表法最简单而且最基本的表示常模的方法就是转换表，有时也叫常模表。测验的使用者利用转换表可将原始分数转换为与其对应的导出分数，从而对测验的分数作出有意义的解释。 1. 简单转换表。把单项测验的原始分与一个或几个量表分列在一张表中。 2. 复杂转换表通常包括几个分测验或几种常模团体的原始分数与导出分数的对应关系。（二）剖面图剖面图是将测验分数的转换关系用图形表示出来。从剖面图上可以很直观地看出被试在各个分测验上的表现及其相对的位置。第四部分信度和效度一、信度定义。信度是指同一被试者在不同时间内用同一测验重复测验所得结果的一致性。反映性能是否稳定。信度只受随机误差的影响，呈反比关系。 2009年11月卷一考题：76、在不同时间内用同一测验重复测量同一被试者，所得结果的一致程度称为( A )。 (A)信度　　(B)效度　　(C)难度　　(D)区分度 2008年11月卷一考题：59．信度只受（ B ）的影响。（A）系统误差（B）随机误差（C）恒定效应（D）概化理论二、信度的指标。（一）信度系数：一种相关系数。（二）信度指数。信度指数的平方就是信度系数。（三）测量标准误（表示误差，说明误差的影响力） SE=Sx √ 1- rxx ￣ SE测量标准误 Sx 所得分数的标准差 rxx 信度系数信度越高，标准误越小。三、评估信度的方法。评估信度的方法：有多少误差的来源,便有多少估计信度的方法。（一）重测信度（稳定性系数。跨时间的一致性）优点：能提供有关测验是否随时间而变异的资料，可作为被试未来行为表现的依据。缺点：易受练习和记忆的影响。间隔时间短，练习的影响大；间隔时间长，心理发展影响测验分数。最适宜的时距随测验的目的，性质和被试特点而异，一般以2-4周为宜，最长不超过6个月。（二）复本信度（等值性系数。跨形式的一致性）以两个等值但题目不同的测验（复本）来测验同一群体，然后求得被试者在两个测验上得分的相关性。反映测验在内容上的等值性。应用上，一半先做A本，一半先做B本。两个复本几乎在同一时间内施测，才是等值性系数。倘若间隔一段时间，则称为重测复本系数或稳定与等值系数。优点：避免重测信度的一些问题如记忆，学习。缺点：1 只能降低练习的影响而不能完全消除； 2 已经掌握的解题原则可用于复本； 3 建立复本非常困难。（三）内部一致性信度主要反映题目之间的关系，表示测验能够测量相同内容或特质的程度。 1 分半信度用分半法估计所得的信度系数。通常在测验实施后按奇偶分为等值的两半，分别计算得分，然后求出两半分数的相关性。但是，这实际上只是一半测验项目的相关系数（测验越长，信度越高），分半法常常低估信度。 2 同质性信度反映测验内部所有题目的一致性。当各个测题的得分有较高的正相关时，不论题目的内容和形式如何，则测验为同质的。即使所有题目看起来好像测量同一特质，但相关很低或为负相关时，则测验为异质的。（四）评分者信度测量不同评分者之间的误差。一般认为在成对的受过训练的评分者之间平均一致性达0.90以上,才认为评分是客观的。 2010年5月卷一考题：77、同质性信度主要反映测验内部( C )。 (A)两半测验 (B)题目与分测验 (C)所有题目 (D)分测验与分测验 2009年5月卷一考题：77、重测信度即（ B ）。（A）等位性系数　（B）稳定性系数　（C）相关系数　（D）X系数 2008年5月卷一考题：57、同质性信度主要代表测验内部( C )间的一致性。 (A)两半测验 (B)题目与分测验　　(C)所有题目 (D)分测验四、信度与测验分数的解释 1、解释真实分数与实得分数的相关信度系数可以解释为总的方差中有多少比例是由真实分数的方差决定的，也就是测验的总变异中真分数造成的变异占百分之几。如：rxx=0.90，意味着实得分数中有90%的变异是真分数造成的，仅10%是来自测验的误差。 2、确定信度可以接受的水平当rxx< 0.70时，测验因不可靠而不能用；当0.70<rxx< 0.85时，可用于团体比较；当rxx> 0.85时，才能用来鉴别和预测个人成绩或作为。此外，新编的测验信度应高于原有的同类测验或相似测验。 3、解释个人分数的意义信度在解释个人分数上的意义是通过测量标准误（SE）去体现的：一是估计真实分数的范围。一是了解实得分数再测时可能的变化情形。一般采用95%的概率水平，置信区间为 X-1.96SE < XT < SE+1.96SE 这就是说，大约有95%的可能性真实分数落在所得分数 + 1.96SE的范围内，或有5% 的可能性落在范围之外，这实际也表明了再测时分数改变的可能范围。 4、比较不同测验分数的差异（详见书本例子解读，P380）五、影响信度的因素。（一）样本特征 1、样本团体异质性的影响任何相关系数都要受到团体中分数分布的范围所影响，而分数范围与样本团体的异质程度有关。若获得信度的取样团体较为异质的话，往往会高估测验的信度，相反则会低估测验的信度。 2、样本团体平均能力水平的影响测验的信度还受取样不同团体间平均能力水平的不同而不同。这是因为，对于不同水平的团体，题目具有不同的难度，每个题目在难度上的微小差异累计起来便会影响信度。（二）测验长度测验长度，亦即测验的数量。一般来说，在一个测验中增加同质的题目，可以使信度提高。增加测验长度的效果应遵循报酬递减率原则。（三）测验难度难度对信度的影响，只存在于某些测验中，如智力测验、成就测验、能力倾向测验等，对于人格测验、兴趣测验、态度量表等不存在难度问题，因为这些测验的题目没有正确或错误答案之分。（四）时间间隔时间间隔只对重测信度和不同时测量时的复本信度（重测复本信度）有影响，对其余的信度来说不存在时间间隔问题。 2009年5月卷一考题：35、以再测法或复本法求信度，两次测验相隔时间越短，其信度系数越（　A　）。（A）大　　（B）低　　（C）小　　（D）不确定 2009年5月卷一考题：92、关于心理测验，下列说法中正确的是（　ABD　）。（A）测验越长，测验的测题取样或内容取样就越有代表性（B）测验越长，被试者受猜测因素的影响就越小（C）测验越长，越遵循报酬递增率原则（D）测验太长，有时会引起被试者的疲劳和反感而降低可靠性六、效度定义。效度是指所测量的与所要测量的心理特点之间符合的程度，或者简单地说是指一个心理测验的准确性。效度是科学测量工具最重要的必备条件。测量的效度除受随机误差影响外，还受系统误差的影响。可信的测验未必有效，而有效的测验必定可信。简言之，信度是效度的必要条件。 2008年11月卷一考题：60．在心理测验中，效度是指一个心理测验的（ B ）。（A）稳定性（B）准确性（C）可信度（D）区分性 2008年5月卷一考题：58、在心理测验中，效度是指一个心理测验的( B )。 (A)稳定性 (B)准确性　　(C)可信度 (D)区分性七、效度的性质。 (一)效度具有相对性。在评鉴测验的效度时，必须考虑其目的与功能。 (二)效度具有连续性。测验效度通常用相关系数表示，只有程度不同。八、效度的分类（效度评估的方法）。美国心理学会在1974年所发行的《教育与心理测量之标准》一书中将效度分为三大类：即内容效度、构想效度和效标效度。（一）内容效度指的是测验题目对有关内容或行为取样的适用性，从而确定测验是否是所欲测量的行为领域的代表性取样。 1．专家判断法。内容效度有时又称“逻辑效度”。 2．统计分析法。计算两个评分者之间评定的一致性；两个测验复本上得分之相关；再测法。 3．经验推测法。表面效度是由外行对测验作表面上的检查确定的，它不反映测验实际测量的东西，只是指测验表面上看来好像是测量所要测的东西；而内容效度是由够资格的判断者（专家）详尽地、系统地对测验作评价而建立的。最高行为测验:较高的表面效度,使被试者有较强动机；典型行为测验:较低的表面效度,不让被试者轻易看出测验的目的。（二）构想效度又名构思效度或结构效度。主要涉及心理学的理论概念问题，是指测验能够测量到理论上的构想或特质的程度。构想效度的估计方法有： 1 对测验本身的分析。内容效度；内部一致性指标；测试者的反映２测验间的相互比较。相容效度；区分效度；因素分析法 3 效标效度。 4 实验法和观察法证实。（三）效标效度又称实证效度，反映的是测验预测个体在某种情境下行为表现的有效性程度。被预测的行为是检验效度的标准，简称效标。根据效标资料是否与测验分数同时获得，又可分为同时效度和预测效度两类。效标效度时，难点在于找到合适的效标。一个好的效标必须具备以下条件： ①效标必须能最有效地反映测验的目标，即效标测量本身必须有效； ②效标必须具有较高的信度，稳定可靠，不随时间等因素而变化； ③效标可以客观地加以测量，可用数据或等级来表示； ④效标测量的方法简单，省时省力，经济实用。效标效度的评估方法： 1．相关法：相关法是评估效标效度最常用的方法，它是求测验分数与效标资料间的相关，这一相关系数称为效度系数（Ｓv /Ｓx ）。如智商测试与成绩。 2．区分法：区分法是检验测验分数能否有效地区分由效标所定义的团体的一种方法。如智商测定区分天才和白痴。　　　 3．命中率法：正确的预测(决定)为命中,命中的情况包括：预测成功而且实际也成功预测失败且实际上也失败 2009年11月卷一考题：35、测验题目对有关行为取样的适用性是( A )。 (A)内容效度　　(B)构想效度　　(C)效标效度　　(D)区分效度 2009年5月卷一考题：57、检验测验分数能否有效地划分由效标所定义的团体的一种方法是（　B　）。（A）相关法　　（B）区分法　　（C）命中率法　（D）失误法 2009年5月卷一考题：119、内容效度的评估方法有（　ACD　）。（A）专家判断法　　（B）双向细目表法（C）统计分析法　　（D）经验推测法 2008年5月卷一考题：105、效标效度的主要评估方法有( ABD )。 (A)相关法 (B)区分法　　(C)失误法 (D)命中率法九、效度的功能。（一）预测误差。Sest=Sy √ 1- r²xy ￣ Sy标准差 r²xy决定系数。（二）预测效标分数。公式中指预测的效标分数。（三）预测效率指数。无关系数K=√ 1- r²xy ￣,表明预测源分数（估算分数）与效标分数（真实分数）的无关程度。效率指数E=100(1-K)，意指减少的误差。E值大小表明使用测验比盲目猜测能减少多少误差。如果一个测验的效度系数为0.80，E＝40，这表明由于该测验的使用，使得我们在估计被试的效标分数时减少了40%的误差。十、影响效度的因素。（一）测验本身的因素。要做好以下几点： 1．测验材料必须对整个内容具有代表性； 2．测题设计时应尽量避免容易引起误差的题型； 3．测题难度要适中，具有较高的区分度； 4．测验长度要恰当，即要有一定的测题量； 5．测题的排列按先易后难顺序。（二）测验实施中的干扰因素。 1、主试的影响因素；2、被试的影响因素。（三）样本团体的性质。 1、样本团体的异质性如果其他条件相同，样本团体越同质，分数分布范围越小，测验效度就越低；样本团体越异质，分数分布范围越大，测验效度就越高。 A 只以选拔上的被试为样本团体参加效度研究,降低了测验的效度；　　 B 选拔标准太高，样本团体的同质性增加，降低了测验的效度。 2、干涉变量 (四)效标的性质第五部分项目分析一、定性分析与定量分析。测验的项目分析包括定性分析和定量分析两个方面。定性分析包括考虑内容效度，题目编写的恰当性和有效性等；定量分析主要是指对题目难度和区分度等进行分析。难度指项目的难易程度。在非能力测验(如人格测验)中，类似的指标是“通俗性”。项目区分度，也叫鉴别力，是指测验项目对被试的心理特性的区分能力。二、难度的计算方法。 1、二分法记分的项目心理测验的项目大多为选择题，通过记1分，错误记0分。对这类题目可直接用公式计算难度。 P=(R/N)х100% P:难度(通过率) R:答对或通过项目的人数 N:全体被试者人数当人数较多时,分三组:分数最高(低)的27%为高(低)分组 P=(PH+PL)/2 P:难度（通过率） PH:高分组通过率 PL:低分组通过率 2、非二分记分的项目当测验项目为问答题或不能用二分法记分的形式时，一般用下面的公式计算难度。 P=(X/Xmax)х100% X为全体测试者在该题上的平均分 Xmax为该题的满分三、难度水平的确定。 1、项目的难度越是接近中等难度的题目越具有区分的作用,也就是P越是靠近0.50的题目越好,其区分程度越高。当测验用于选拔或诊断时，应选择难度值（通过率）接近录取率的项目。 2、测验的难度中等难度的测验，测验总分应该接近常态分布。正偏态分布：多数得分集中在低端，偏难；负偏态分布：多数得分集中在高端，过易。四、区分度计算方法。一般来说，较难的项目对高水平的被试区分度高，较易的项目对水平低的被试区分度高，中等难度的项目对中等水平的被试区分度高。项目难度的分布也以常态分布为好，这样不仅能保证多数项目具有较高的区分度，而且可以保证整个测验对被试具有较高的区分能力。区分度计算方法： 1、鉴别指数高分组通过减去低分组通过率 D = PH – PL 2、相关法计算区分度最常用的方法是相关法,即以某一项目分数与效标成绩或测验总分的相关作为该项目区分度的指标。相关越高,区分度越高。鉴别指数在0.40以上，测验非常优秀；0.20以下，测验可淘汰。为了使测验具有更大的区别力，应选择难度在0.50左右的试题比较合适。第六部分具体量表一、韦氏成人智力测验(WAIS-RC）。 1、韦克斯勒1955年编制。以后于1981年、1997年、2008年经过三次修订。龚耀先1981年修订中文版本分别制定了城市和农村两个版本：城市和农村两式的测验项目相同，记分标准也一样，但各分测验项目的难易排列顺序和计算量表分与智商的标准不同。 2、包括11个量表。可一次或分次完成。言语量表(6个)：知识、领悟、算术、相似性、数字广度、词汇。操作量表(5个)：数字符号（正式测验时限90秒）、图画填充、木块图、图片排列、图形拼凑。一般按先言语测验后操作测验的顺序进行，特殊情况下可适当改变，如遇言语障碍或情绪紧张、怕失面子的受测者，不妨先做一两个操作测验，或从比较容易做好的项目开始；测验通常是一次做完，对于容易疲劳或动作缓慢的被试者可分次完成。各个分测验一般不是从第一题开始（各有具体要求）。 3、适用人群：16岁以上。分农村和城市两种版式。个别施测。 4、对于有时间限制的项目（算术、图片排列、木块图案、物体拼凑、数字符号、图画填充），以反应的速度和正确性作为评分的依据。不限时间的项目，则按反应的质量给予不同的分数。 5、一般的分测验评分客观，有些言语测验如“理解”、“相似性”、“词汇”三个分测验和“知识”分测验的部分测题评分标准难掌握。 6、原始分转化成平均数为10，标准差为3的量表分。分别将言语测验和操作测验的量表分相加，便可得到言语量表分和操作量表分。再将二者相加，便可得全量表分。 7、根据相应用表换算成言语智商（VIQ）、操作智商(PIQ)和总智商(FIQ)。总智商平均数为100，标准差为15。 8、智力等级范围：极超常 ≥130 超常 120-129 高于平常 110-119 平常 90-109 低于平常 80-89 边界 70-79 智力缺陷 ≤69 9、韦氏智力量表是当今最通用的个体智力测验量表,优点在于: （1）具有复杂的结构,不但有言语分测验,还有操作分测验；（2）用离差智商代替比率智商；（3）临床应用得多,积累了大量经验。缺点: （1）三个独立本(成人,儿童,幼儿)的衔接欠佳；（2）测验起点偏难,有的分测验不便测量低智力者；（3）有的项目过多,有的项

展开阅读全文