《心理咨询师理论知识》第五章心理测量学知识.doc

资源描述

20180322 第五章心理测量学知识第一节概述第一单元测量与测量量表（P348-350）一、测量的定义：测量就是依据一定的法则用数字对事物加以确定。该定义包括三个主要的元素：事物（指的是我们要测量的对象，更准确地说，就是引起我们兴趣的事物的属性或特征）、数字（是代表某一事物或事物某一属性的量）、法则（代表的是测量所依据的规则和方法）。二、测量要素：参照点、单位参照点：要确定事物的量，必须有一个计算的起点，这个起点叫做参照点。1绝对零点（全无）2相对零点（人为）；单位：是测量的基本要求，没有单位就无法进行测量；好的单位必须具备的两个条件：有确定的意义、相同的价值。三、测量量表：斯蒂文斯测量表的四水平：命名量表、顺序量表、等距量表、等比量表（心理测量为顺序量表）种类功能基本特征运算举例 1.命名量表代号或分类无相等单位无绝对零点不能＋－×÷ 性别、学号⋯ 2.顺序量表 1+等级无相等单位无绝对零点不能＋－×÷ 品德、名次、⋯ 3.等距量表 2+差异决策和比较有相等单位无绝对零点可＋－温度、分数⋯ 4.比率量表 3+比值决策和比较有相等单位有绝对零点可＋－×÷ 身高、体重⋯ 第二单元心理测量的基本概念（P350-352）一、心理测量的定义：心理测验的定义：依据心理学理论，使用一定的操作程序，通过观察人的少数有代表性行为，对于贯穿在人的全部行为活动中的心理特点作出推论和数量化分析的一种科学手段。 1、心理测验测量的是人的行为。 2、心理测验在测量个别差异的时候，往往只是对少数经过慎重选择的行为样本进行观察，来间接推知被试者的心理特征。 3、为了使不同的被试者所获得的分数有比较的可能性，测验的条件对所有的被试者都必须是相同的。 4、个人在测验中所得到的原始分数并不具有什么意义，只有将它与其他人的分数或常模相比较才有意义。二、心理测验的性质：间接性（心理测量的间接性迄今为止，我们还无法直接测量人的心理，只能通过测量人的外显行为，即通过测量人们对测验题目的反应来推论出他的心理特质）；相对性（心理测量的相对性我们在比较不同人之间的行为或心理特征时，没有绝对的标准，也没有绝对的零点，我们有的只是一个连续的行为序列）；客观性（1、测验的刺激是客观的2、对反应的量化是客观的3、对结果的推论是客观的）第三单元心理测验的分类（P352-354）分类标准分类定义按功能分智力测验特殊能力测验人格测验按测验材料的性质分文字测验操作测验按测验材料的严谨程度分客观测验投射测验按测验的方式分个别测验团体测验按测验的要求分最高作为测验要求受测者尽可能做出最好的回答，与认知过程有关，有正确答案；如智力测验、成就测验典型行为测验要求受测者尽按通常的习惯方式做出反应，没有正确答案；如人格测验第四单元纠正错误的测验观（P354）错误的测验观：万能论、无用论、心理测验即智力测验正确的测验观：重要的心理学研究方法之一；是决策的辅助工具；作为研究方法和测量工具尚不完善第五单元心理测验在心理咨询中的应用（P355-356）在我国的心理门诊中应用较多的三类心理测验：智力测验（可在求助者有特殊要求时及对方有可疑智力障碍的情况下应用）；人格测验（有助于治疗者对求助者人格特征的了解，以便于对其问题有更深入的理解，并可针对性地开展咨询与心理治疗工作）；心理评定量表（用于检查求助者某方面心理障碍的存在与否或其程度如何）。第六单元心理测量的发展史（P356-359） 1、世界上最早的心理测量的实践：我国的科举取士制度（始于汉代、兴于隋唐）； 2、★高尔登十年（19世纪80年代）：【英国】生物学家和心理学家高尔登为首先倡导科学心理测验的学者（①倡导科学心理测验；②遗传决定论的代表；③设计了测量差异的方法；④奠定了统计学基础；⑤提出了相关的概念。皮尔逊创立了积差相关法。） ★卡特尔十年（90年代）：1890年，【美国】卡特尔在《心理》杂志上发表“心理测验与测量”一文，这是心理测验第一次出现于心理学文献中。并认为心理测验的结果应与常模进行比较； ★比内的智力测验十年（20世纪头10年）：1905年，【法国】比内与其助手西蒙研究制作了世界上第一个正式的心理测验。 3、此后心理测验的发展：操作测验、团体智力测验、能力倾向测验、人格测验的发展(人格测验的先驱是克雷佩林，最早将自由联想测验施测于精神病人)。 4、我国的测验致力于本土化第二节测验的常模第一单元常模团体（P360-362）一、常模团体的性质：常模团体是由具有某种共同特征的人所组成的一个群体，或者是该群体的一个样本。常模的选择主要是基于对测验将要施测的总体的认识，常模团体必须能够代表该总体。确定常模团体的步骤：一般总体→目标总体→样本。对测验的使用者来说，要考虑的问题是，现有的常模团体哪一个最合二、常模团体的条件：（一）群体的构成必须明确界定（性别、年龄、教育水平、职业、社经地位等）；（二）必须是所测群体的代表性样本；（三）样本的大小要适当（一般标准：最低不少于30或100人；全国常模：一般2000～3000人；关键：要有代表性；基本原则：经济、实用、减少误差）；（三）时空性和新近性三、取样的方法包括：取样（从目标人群中选择有代表性的样本）抽样方法方法特点局限简单随机（随机号码表法、随机数字法）按照随机表顺序选择受测者构成样本，或者将抽样范围内每个人或者将每个抽样单位进行编号，再随机选择机会均等，操作简便总体较分散—→样本也较分散；总体个体差异较大—→样本容量要大系统抽样（等距抽样）以某个随机数字为起点，间隔一定单位(组距）抽取样本样本分布均匀，抽样误差较小可能有系统误差，随机性较差（与简单随机抽样结合使用）分组抽样（整群抽样）总体数目较大，群体具有多样性，先将群体进行分组，再在组内进行随机抽样组织形式简便易行样本分布不均匀，抽样误差较大（适当扩大样本容量，减小抽样误差；与分层抽样法或其他方法配合使用）分层抽样（最常用）整群分层，随机抽样：先将目标总体按某种变量（如年龄）分成若干层次，再从各层次中随机抽取若干被试，最后把各层的被试组合成常模样本。包括：分层比例抽样、分层非比例抽样四、常模与常模分数：（一）常模：是一种供比较的标准量数，由标准化样本测试结果计算而来，是心理测验时用于比较和解释测验结果的参照分数标准。按样本大小及来源：全国常模、区域常模、特殊常模；按具体应用标准和分数特征：百分位常模、标准分数常模。（二）常模分数（导出分数、量表分、标准分）：施测常模样本后，将受测者的原始分数按一定规则转换出来的导出分数。原始分数本身没有多大意义；导出分数具有一定的参照点和单位，它实际上是一个有意义的测验量表，它与原始分数等值，可以进行比较；第二单元常模类型（P363-368）一、发展常模（叫年龄量表）：根据特质的平均表现所制成的量表（一）发展顺序量表最直观的发展常模是发展顺序量表（儿童的发育正常、超前、滞后）；最早的范例是葛赛尔发展程序表（按月份显示出儿童在运动水平、适应性、语言、社会性四个方面的大致发展水平）。葛塞尔婴儿感觉运动发展顺序周记忆方法行为表现（上→下；中心→两边） 4 4×1 控制眼睛运动，能追随一个对象看等 16 4×4（1﹢3）能使头保持平衡 28 4×7（4﹢3）能用手抓握并玩弄东西 40 4×10（7﹢3）能控制躯干、耸立和爬 52 4×13（10﹢3）能控制腿和脚的运动、站立和行走【瑞士】皮亚杰的研究着重于从婴儿到十多岁儿童认知过程的发展，尤其注重某些特殊概念的形成，其中最著名的工作就是对守恒概念（儿童在不同时期出现不同的守恒概念，567，质重容）的研究。年龄 5 6 7 守恒概念质量守恒重量守恒容量守恒（二）智力年龄（智龄）：一个儿童在年龄量表上所得的分数就是最能代表他智力水平的年龄。比内西蒙的量表中首先出现智力年龄的概念。儿童的智力年龄是基础年龄与在较高年龄水平的题目上获得的附加月份之和。B-S量表答对每题得智龄2个月。（三）年级量表（年级当量）：测验结果属于哪年级水平；指标：年级水平平均数；在教育成就测验中最常用；年级量表单位通常是10个月（一个年级）（4.0表示四年级开始的水平，5.5表示五年级学年中间的平均成绩）二、百分位常模：包括：百分等级；百分点；四分位数和十分位数（一）百分等级：常模样本中低于这个分数的人数百分比。百分等级是应用最广的表示测验分数的方法；百分等级表示个体在常模团体中的位置，越低，个体所处的位置就越低。（百分等级是85表示在常模样本中有85%被试比这个分数低）；（二）百分点（百分位数）：百分等级是计算低于某测验分数的人数百分比，而百分点则是计算处于某一百分比例的人对应的测验分数是多少；在分数量表上，相对于某一百分等级的分数点就叫百分点或百分位数；（高考只录取15%的被试，投档线相当于85百分等级的测验分数）。与百分等级的计算方法正好相反。百分位常模是通过双向方式（由原始分数计算百分等级；由百分等级计算原始分数）编制的原始分数与百分等级对照表。（三）四分位数和十分位数：百分位数四分位数十分位数将量表分成100份将量表分成四等份将量表分成十等份相当于百分等级的25%、50%和75%对应的三个百分分成的四段 1%～10%为第一段，91%～100%为第十段任一百分位数值四分之一或四分之三等位置上的数值十分之一等位置上的数值三、标准分常模：将原始分数与平均数的距离以标准差为单位表示出来的量表。它的基本单位是标准差，所以叫标准分数。标准分数的获得：线性转换、非线性转换（一）线性转换的标准分数：最典型：Z分数（以标准差所表示的原始分数（X）与平均数的偏差；Z=A + BZ；加上一个常数是为了去掉负值；乘以一个常数是为了使单位变小从而去掉小数；这种变化并不改变原来分数的性质）常见的标准分数： T分数标准九分标准十分标准二十分离差智商（使用最广，影响最大）平均数 50（加上一个常数50） 5 5.5 10 100 标准差 10（（乘以一个常数10）） 2 1.5 3 15 量表分 T=50+10z =5+2Z =5.5 +1.5Z =10+3Z =100+15z （三）非线性转换的标准分数：前提：只有所测特质的分数在实际上应是正态分布，由于误差导致非正态，方可转换。 X分布非正态时的正态转换：X→PR→Z（将原始分数转化为百分等级，再将百分等级转化为常态分布上对应的标准分数）计算步骤：①对每个原始分数值计算累计百分比；②在常态曲线面积表中，求出对应于该百分比的分数Z分数四、智商及其意义最早的比内-西蒙量表是用心理年龄（MA）来表示受测者智力的高低。若心理年龄高于其生理年龄，则智力高。（一）比率智商= 心理年龄除以实际年龄而后乘以100（1916年【美国】推孟教授修订斯坦福-比内量表在心理年龄的基础上，以智商表示测验结果，即比率智商，不适合年龄较大的受测者）（二）离差智商= 15Ｚ + 100；韦克斯勒提出（使用最广；建立在统计学的基础上；表示个体智力在年龄组中的位置；是表示智力高低的理想指标；注意点：从不同测验获得的离差智商；只有在标准差相同或接近时方可比较） ▲几种导出分数之间的关系：高一个标准差对应的百分点为百分之八十四比率智商离差智商：IQ=100+15z或IQ=100+16z 第三单元常模分数的表示方法（P368-370）（一）转换表法（最基本，常模表）：是最简单基本表示常模的方法；一个转换表显示出一个特定的标准化样组的原始分数与其相对应的等值分数——百分位、标准分数、T分数或者其它任何分数。因此测验的使用者利用转换表可将原始分数转换为与其对应的导出分数，从而对测验的分数作出有意义的解释。简单转换表：把单项测验X转换成一种或几种导出分数。复杂转换表：多个分测验或各种常模团体的X与导出分数的对应关系。（二）剖面图（最直观）：是将测验分数的转换关系用图形表示出来。从剖面图上可以很直观地看出被试在各个分测验上的表现及其相对的位置。第三节测验的信度第一单元信度的概念（P371）一、信度的定义（可靠、一致、稳定性）：指同一被试在不同时间内用同一测验（或用另一套相等的测验）重复测量，所得结果的一致程度（只受随机误差影响，系统误差产生恒定效应，不影响信度）。信度是反映测量中随机误差大小的指标。随机误差越大，信度越低。二、信度的指标：两大类、三种表示方法（信度系数与信度指数，测量的标准误）（一）信度系数与信度指数：信度系数是一种相关系数（同一受测者样本所得的两组资料的相关）；信度指数的平方是信度系数。三、（二）测量的标准误：公式为：SE＝SX SE为测量的标准误，SX是所得分数的标准差，rxx是测量的信度系数(信度越高，标准误越小)。第二单元信度评估方法（P372）一、重测信度（稳定性系数）：它的计算方法是采用重测法，即使用同一测验，在同样条件下对同一组被试者前后施测两次测验，求两次得分间的相关系数。最适宜的时距随测验的目的、性质和被试特点而异，一般是两周到四周较宜，间隔时间最长不超过六个月。二、复本信度（等值系数）：以两个等值但题目不同的测验测量同一群体，而后求相关系数；复本系数反映的是测验在内容上的等值性。如果两个复本的实测相隔了一段时间，则称为重测复本信度或稳定等值系数；在计算复本信度时，应该有半数的被试先作A本再作B本，另一半被试先作B本再作A本，由此可以抵消施测顺序的效应。优点：能够避免重测信度的问题（记忆效果、学习效应），缺点：①测量行为易受练习影响，则复本系数仅能减少其影响，②存在问题迁移，③建立复本困难。三、内部一致性信度（分半、同质性）：主要反映的是题目之间的关系，表示测验能够测量相同的内容或特质的程度。 ▲分半信度（采用分半法估计所得的信度系数），分半系数实际上反映了两半测验项目之间的相关系数，存在测验越长信度越高的问题，容易低估信度；通常按项目编号的奇、偶数分为等值的两半。 ▲同质性信度（主要代表测验内部所有题目间的一致性，当测提的得分有较高的正相关时，无论题目的的内容和形式如何，则均为同质，反之）。四、评分者信度：用于测量不同评分者之间所产生的误差。一般要求在成对的受过训练的评分者之间，平均一致性达到0、9以上，才能认为评分是客观的。第三单元信度与测验分数的解释（P373）一、解释真实分数与实得分数的相关：可以解释为总的方差中有多少比例是由真实分数的方差决定的，也就是测验的总变异中真分数造成的变异占百分之几；信度系数也告诉我测量的误差比例是多少。信度系数(rXX)的分布：0.00→1.00的正数范围，代表了从缺乏信度到完全可信的所有情况。 l rXX＝0.9时，实得分数中有90%的变异是真分数造成的，仅有10%是来自测验的误差； l rXX＝1.00时，实得分数中有100%的变异是真分数造成的，完全没有测验误差； l rXX＝0.00时，所有的变异和差别反映的是测验误差；二、确定信度可接受的水平：理想（rXX＝1.00）做不到，系数有范围；一般能力和成就测验rXX≧0.90-0.95；人格测验、兴趣、态度、价值观等测验rXX≧0.80-0.85 信度评价的一般原则： rXX RXX ﹤0.70:不可靠,不能用；0.70≦rXX ﹤0.85:可用于团体；rXX≧0.85:可用于鉴别或预测个人成绩或作为。四、解释个人分数的意义：通过应用测量标准误这个概念去体现；①估计真实分数的范围；②了解实得分数再测时可能的变化情形。（公式5-6：SE为测量标准误，是误差分数分布的标准差，是表示测量误差大小的指标；rXX是测验的信度；SX所得分数的标准差） 95%的概率水平，其置信区间为：（X-1.96SE）﹤XT≤（X+1.96SE）五、比较不同测验分数的差异：包括两个人不同分数的差别和同一受测者在两个测验上的差别。这是差异分数的标准误的问题。（公式5-8：SEd为差异的标准误； S代表两个测验使用的标准差），所得结果与1.96SE(0.05水平)进行比较,即可得出两个测验的差异是否显著。第四单元影响信度的因素（P375）一、样本特征：信度系数（相关系数）受样本是否异质及样本团体平均能力水平的影响。（一）样本团体异质性的影响：一般而言，若获得信度的取样团体较为异质的话，往往会高估测验的信度，反之则会低估测验的信度（样本越异质，分数分布越广，有可能高估信度；样本团体不同，信度就有可能不同）。（二）样本团体的平均能力水平的影响：团体平均水平太高或太低，分布变窄，可能低估信度。二、测验的长度（测题的数量）：一般来说，在一个测验中增加同质的题目，可以使信度提高。测验越长，测验的测题或内容取样就越有代表性；测验越长，受测者的猜测因素影响就越小；注意：增加测题长度的效果应遵循报酬递减率原则三、测验的难度：难度与信度没有简单对应关系；难度对信度影响存在于某些测验（智力、成就、能力倾向），不存在于某些测验（人格、兴趣、态度量表）；通常难度的平均水平为0.50较好。四、时间间隔：只对重测信度和不同时测量的复本信度（重测复本信度）有影响；两次测验相隔时间越短（久，其他变因介入的可能性越大，受外界的影响也越大）其信度系数越大（低）。五、特殊的信度问题：速度测验不存在评分者信度，也无法计算同质性信度；重测信度和复本信度能按传统方法估计；只有分半信度不能按传统方法估计；分测验分数肯定不如合成分数可靠。第四节测验的效度第一单元效度的概念（P378）一、效度的定义：所测量的与所要测量的心理特点之间的符合程度，或者简单地说是指一个心理测验的准确性；受随机误差和系统误差的影响；可信的测验未必有效，而有效的测验必定可信。二、效度的性质：①相对性（在评鉴测验的效度时必须考虑其目的与功能）、②连续性（测验效度是测验结果的有效性程度，通常用相关系数表示，不应该说“有（无）效”，而应该用效度较高（低）来评价）三、信度与效度的关系：信度是效度的必要而非充分条件；效度受信度的制约（信度系数的平方根是效度系数的最高限度）。第二单元效度评估的方法（P379-385）美国分类：内容效度（逻辑效度）、构想效度（结构效度）、效标效度（实证效度）一、内容效度（逻辑效度）:测验题目对有关内容或行为取样的适用性，即该测验是否是所欲测量的行为领域的代表性取样。编制内容效度高的测验的条件:所测的心理特性有一个明确的概念及范围；题目应是所界定内容范围的代表性取样。内容效度估计方法：专家判断法（1）定义好测验内容的总体范围；（2）编制双向细目表，确定内容和技能各自所占的比例；（3）由每位评判者在评定量表上作出判断。统计分析法（1）计算两个评分者之间评定的一致性（评分者信度）；（2）两个测验复本上得分之相关（复本信度）；（3）再测法也可用于内容效度的评估（测验-学习-再测验）经验推测法通过实践来检验效度（如儿童发展量表）二、构想效度（构思效度、结构效度）：是指测验能够测量到理论上的构思或特质的程度，即测验的结果是否能证实或解释某一理论的假设、术语或构思，解释的程度如何。构想效度估计方法对测验本身的分析（1）测验的内容效度；（2）测验的同质性；（3）分析被试者对题目的反应特点测验间的相互比较（1）相容效度是构思效度的一个证据；（2）区分效度是构思效度的又一个证据；（3）因素分析法也是建立构思效度的常用方法效标效度的研究证明效标分组/分数分组，年龄变化实验法和观察法证实观察前后差异，预测得分变化二、效标效度（实证效度）：反映的是测验预测个体在某种情境下行为表现的有效性程度。在检验一个测验的校标效度时，关键在于找到合适的校标，一个好的校标必须具有的四个条件：①校标必须能够有效的反映测验的目标，即校标测量本身必须有效；②校标必须具有较高的信度；③校标可以客观的加以测量，可用数据或等级表示；④校标测量的方法简单、可靠，经济。效标效度估计方法：相关法是评估效标效度最常用的方法，它是求测验分数与效标资料间的相关，这一相关系数称为效度系数；计算方法包括：积差相关法（最常用）、二列相关、点二列相关、JUSPEN多系列相关等。区分法分析高分组与低分组分布的重叠量。或者计算每一组内得分超过（或低于）另一组平均数的人数百分比，或者计算两组分布的共同区的百分比。重叠量越大，说明两组分数差异越小，即测验的效度越差命中率法当测验用来做取舍的依据时，用其正确决定的比例作为效度指标的一种方法；正确的预测（决定）为命中，不正确的预测（决定）为失误；良好的测验必须具备信、效度；与信度比，效度更重要；成就测验和职业选拔测验多用内容效度；智力和人格测验多用结构效度。第三单元效度的功能（P385-386）（有难度，记题干）一、预测误差：效度系数的实际意义常用决定性系数来表示，决定性系数是效度系数的平方，它表示测验正确预测或解释的效标的方差占总方差的比例。如，测验的效度系数为0.8，则决定性系数为0.64，则测验分数正确预测效标的比例是64%。效度系数的另一种表达方法为估计的标准误。（预测误差;0-1：当测验效度非常完美时（1.00），估计标准误是零，测验分数可完全代表效标；当测验效度指数为0时，测验无异于猜测。）二、预测效标分数：三、预测效率指数：第四单元影响效度的因素（P386-388）一、测验本身的因素：测验取材的代表性、测验长度、试题类型、难度、区分度以及编排方式都会影响效度。保证测验具有高度效度的条件：测验材料具有代表性；测题设计避免引起误差；测题难度适中，较高的区分度；测验长度恰当；测题的排列按先易后难排列二、测验实施中的干扰因素：主试的影响因素（是否按测验手册各项规定实施测验（指导语、时间等））；被试的影响因素（人格特点：兴趣、动机、情绪等，身心健康状况，合作态度、反应定式等）。三、样本团体的性质：（一）样本团体的异质性（如果其他条件相同，样本团体越同质，分数分布范围越小，测验效度就越低；只以选择的受测者团体参加效度的研究；选择标准太高，样本团体同质性增加，降低效度）；（二）干涉变量：对不同性质的团体，相同测验的效度会有很大的不同；因性质不同（性别、兴趣、职业、年龄等）使测验对不同团体具有不同的预测能力。干涉变量的确定方法（P387）四、效标的性质：效标效度是以测验分数与效标测量的相关系数来表示的，效标测量本身的可靠性，即效标测量的信度是一个值得考虑的问题。相同条件下：测量行为与效标行为相似，效度越高。第五节项目分析测验的项目分析包括：定性（包括考虑内容效度、题目编写的恰当性与有效性）和定量分析（主要指对题目难度和区分度进行分析）。第一单元项目的难度（P389-391）一、定义：项目的难易程度。能力测验指标：难度；非能力测验（如人格测验）指标：通俗性。难度的指标通常由通过率表示;即以答对人数与总人数的百分比表示，通过率用P表示，P越大（低），通过率越高（低）。二、计算方法（一）二分法计分的项目：对于选择题，且人数较多时，可采用二分法计分，高分者取27%，低分者取27%，中间为46%，分别计算高分组和低分组的通过率而后取其平均数，即为难度。（二）非二分法计分的项目：对于非选择题则采用非二分计分法，用全体受测者在某题上的平均分与该题的满分的百分比表示难度。三、难度水平的确定：（一）项目的难度：进行难度分析的主要目的在于筛选项目；项目难度的大小，取决于测验的目的，性质，以及项目的形式；目标参照测验：不考虑难度；选拔测验：难度接近录取率；对于选择题来说，难度一般应大于猜测概率；如是非题难度应为0.75最为合适;四选一,其难度约为0.63最为合适；无论速度测验还是难度测验，一般都应防止得满分，因为满分的意义是不明确的； P值越接近于0或1，越无法区分受测者之间能力的差异，P值接近于0.50时，区别力越高（二）测验的难度：直接依赖于组成测验的项目的难度。一般来说，最好的测验中的所包含试题的难度在0.50+0.20（0.3-0.7）之间，平均难度接近于0.50. 试题的平均难度为0至1之间，最好接近0.5；如果受测者常态分布为好。测验难度影响测验分数的分布形态（正高负低）：难度高（低），正（负）偏态。如果受测样本具有代表性，对于中等难度的测验，其分布应接近常态。第二单元项目的区分度（P391-393）一、定义：项目区分度（鉴别力）是指测验项目对受测者的心理特征的区分能力；是评价项目质量和筛选项目的主要指标，影响测验效度的重要因素。二、计算方法：（一）鉴别指数：主要步骤（排序）：（1）按测验总分的高低排列答卷；（2）确定高分组和低分组，各取27%；（3）分别计算出两组的通过率；（4）按下面公式计算 D= 其范围在-1.00～+1.00之间。＋1.00表示鉴别指数最高，—1.00表示鉴别指数最低。鉴别指数D为高分组与低分组通过率的差。鉴别指数越高，题目的鉴别性能即区分能力越好。高分组若高于低分组即D>0，D越大，说明区分度越高，若D小于0，则表示测验有问题。实验得出，D=0.4的项目评价最好。0.19以下的差。（0.4以上好，0.19以下必须淘汰）【美国】测验学家伊贝尔提出鉴别指数的评价标准：区分度（D）评价 0.40以上非常良好 0.30－0.39 良好，如能改进则更佳 0.20－0.29 尚可，仍需再改进 0.19以下劣，必须淘汰或加以修改（二）相关法：最常用的方法；即以某一项目分数与效标分数或测验总分的相关作为项目区分度的指标。常用的计算方法：点二列相关、二列相关、中相关法；相关越高，项目区分度越高；区分度的取值范围在-1至1之间，若项目得分与实际能力水平为负相关，则区分度为负值，负值时，意味着，实际能力越高，得分反而低，则项目应淘汰。三、项目区分度与难度的关系： § 难度是区分度的必要条件。一般来说，难度越接近0.50,项目的区分度越大,难度越接近1.00或0时,项目的区分度越小。 § 难度和区分度都是相对的，是针对一定的团体而言的,绝对的难度和区分度是不存在的。 § 一般而言，较难（易）的项目对较高（低）水平的被试区分度高。 § 项目难度的分布以常态分布为好。较难和较易的较小，中等难度的多些，平均难度为0.50。 § 为了使测验具有更大的区别力，应该选择难度在0.50左右的试题比较合适。但是，在实际工作中并非如此简单。如果难度都是0.50，而试题间都完全相关，则易形成“U”分布。所以在选择题目时，最好难度水平接近0.50，而各题难度在0.50m0.20之间变化。第六节测验编制的一般程序第一单元测验的目标分析（P394-396）一、测验的对象：测验将用于哪些团体，如受测者年龄、受教育程度、社会经济及阅读水平等。二、测验的用途：描述、诊断、选拔、预测（一）显示性测验（样本测验和标记测验）（二）预测性测验三、测验的目标：是指测验用来测量什么心理特质。目标分析以测验不同而异，分三种情况：（一）工作分析（用于预测性测验）确定哪些心理特征和行为可以使要预测的活动达到成功。建立衡量被试是否成功的标准——效标（二）对特定概念下定义（用于测量心理特质）必须发现所要测量的心理特质所包含的维量将通过什么行为表现出来或怎样进行测量。（三）确定测验的具体内容（用于显示性测验）编制双向细目表（例如表5-7）第二单元测题的编写（P396-399）编制测验题目是心理测验编制过程中最重要的一环，涉及从写出、编辑到预试、修改等一个循环过程。一、搜集资料; 题目来源的三个方面：①已出版的标准测验；②理论和专家的经验；③临床观察和记录。二、命题原则：从四个方面考虑：内容、文字、理解、社会敏感性。（一）内容方面：符合测验目的；取样有代表性；题目间相互独立（二）文字方面：准确；简明；一句话说明一个概念；尽量少用双重否定句（三）理解方面：应有确切答案；题目内容不超出受测团体的知识水平和理解力；题目格式不会被人误解（四）社会敏感性方面：如何鼓励受测者作出真实回答？（菲利普策略） ①命题时假定被试有某种行为，使他不得不在确实没有该行为时才否定。如“你平均多久手淫一次？” ②命题时假定规范不一致，如“有的医生认为吸烟有害，另一些医生认为有益，你呢？” ③指出该行为时常见的，“多数人在看色情电影是有性冲动，你呢？” 三、编制要领：提供型题目（要求受测者给出答案，论文题、简答题、填充题）；选择型题目（要求受测者在有限的答案中选择，选择题、是否题、匹配题）（一）选择题（构成：题干和选项）：注意六点：①题干明确，意义完整；②选项简明扼要；③每题只给一个正确答案；④各选项长度尽量相等；⑤避免题干含有选择答案的线索；⑥选项最好用同一形式，随机排列（二）是非题：注意五点：①内容应以有意义的概念、事实或基本原则为基础；②每道题只能包含一个概念；③尽量避免否定的叙述，尤其要避免用双重否定的叙述；④若是表达意见的题目，最好说明意见的来源和根据；⑤“是”“非”题的数目应有适当比例，基本相等，随机排列。（三）简答题：注意四点：①宜用问句形式。如果用填充形式，空格尽量放到最后；②如果是填充形式，空格不宜太多，空出来的应是关键词句；③每题应只有一个正确答案，而且答案要简短而具体；④对不完整的答案，应事先规定评分标准。（四）操作题：注意四点：①明确所要测的目标，将其操作化；②尽量选择真实性程度（即逼真度）较高的项目；③指导语要简明扼要；④制定好评分标准和计分方法。第三单元测验的编排和组织（P399-403）一、合成测验（一）选择与审定试题： 1、选择试题形式：（1）测验的目的和材料的性质；（2）接受测验的团体的特点；（3）各种实际因素如，人数多少、经费 2、审定题目：（1）题目的范围应与双向细目表一致；（2）题目的数量要比最后所需的数量多一至几倍；（3）题目的难度必须符合测验目的的要求；（4）题目的说明必须清楚明白；另外，各类题目的比例要适当。测题要适合施测对象和施测条件，难度和区分度好，题目之间要相互独立，没有重叠。（二）测题的编排 ★测题的编排的一般原则：1、测题的难度排列宜逐步上升；2、尽可能将同类型的测题组合在一起；3、注意各种类型测题本身的特点 ☆测题常见的编排方式：1、并列直进式（分成若干分测验，同一分测验的试题由易到难排列。如韦氏智力测验）；2、混合螺旋式（先将各类试题依难度分成若干不同的层次，再将不同性质的试题交叉排列，难度渐次升进。如比内量表）二、测验的预试（一）预测：①预测对象应取自将来正式测验准备应用的群体；②预测的实施过程与情境应力求与将来正式测验时的情况相近似；③预测的时限可以稍宽一些，最好使每个被试都能做完，便于统计分析；④预测过程中，应对被试的反应情况随时加以记录。（二）项目分析：质（内容取样的适用性、题目的思想性、表达是否清楚）；量（对预测结果进行统计分析，确定题目难度、区分度、备选答案的合适度）三、信度与效度考察：信度是使测验有效的必要条件四、常模制定：五、编写指导手册：编写指导手册的内容（①测验的目的和功用；②测验编制的理论背景以及编制方法；③如何实施测验的说明；④测验的标准答案和计分标准；⑤常模资料，包括常模表、常模适用的团体及对测验分数如何做解释；⑥测验的基本特征，包括难度、区分度、信度、效度、因素分析等资料，以及这些资料取得的条件和情境等。）第七节心理测验的使用第一单元主测者的资格（P404-405）一、知识结构二、专业理论知识和专业技能三、职业道德：（一）测验的保密和控制使用；（二）测验中个人隐私的保护第二单元测验的选择（P405-406）一、所选测验必须适合测量的目的二、所选测验必须符合心理测量学要求第三单元测验前准备及注意事项（P406-407）一、测验前的准备工作：（一）预告测验；（二）准备测验材料；（三）熟悉测验指导语；（四）熟悉测验的具体程二、测验中主试的职责：按照指导语的要求实施测验；测验前不讲太多无关的话；保持和蔼的、中性的态度。不让被试看到记分；对特殊问题或突发情况要有心理准备。三、建立协调关系：指主试和被试之间一种友好的、合作的、能促进被试做好测验的一种关系。第四单元测验实施的程序及要素（P407-408）一、指导语（被试指导语和主试指导语）二、时限（一般典型作为测验不受时间限制）三、测验的环境条件：1、完全遵从测验手册的要求；2、记录下任何意外的测验环境因素；3、在解释测验结果时必须考虑这一因素第五单元受测者误差及控制方法（P408-411）一、应试技巧与练习效应（一）应试技巧测验油子(能觉察细小差别;合理分配时间;做过各种题型;经验多) （二）练习效应：教育背景较差、经验较少或智力较高者，练习效应较大；着重速度的测验，练习效应较明显；重测的练习效应大于复本测验；两次测验时距越大，练习效应越小，三个月以上可以忽略；一般平均练习效应约在1/5个标准差以下，并且仅限于第一次与第二次重测，第三次以后练习效应不明显。二、动机与焦虑水平（一）应试动机（二）测验焦虑研究表明，以下人员测验焦虑较高：对自己能力没有把握的人；抱负水平过高，求胜心切的人；具有某种人格特点的人，如缺乏自信、患得患失、情绪不稳定的人；非常注重测验结果，承受压力过大的人；对测验程序不熟悉的人。三、反应定势（一）求“快”或求“精确”（二）喜好正面叙述（三）喜好特殊位置（四）喜好较长选项（五）喜好猜测第六单元测验的评分（P411-412）一、原始分数的获得：1、及时而清楚的记录反应情况；2、要有记分键（评分标准）；3、将反应与记分键比较，对反应分类。二、原始分数的转换第七单元测验结果的报告（P412-414）一、测验分数的综合分析：（一）应根据心理测验的特点进行分析；（二）不能把分数绝对化，更不能仅凭一次测验；结果轻易下结论（三）关注测验的信度、效度资料；（四）来自不同测验的分数不能直接加以比较；二、报告分数的具体建议：注意七个具体问题1、应报告测验分数的解释，而不是测验分数本身；2、避免使用专业术语；3、要保证当事人知道这个测验是测量或预测什么；4、要使当事人知道他是和什么团体进行比较；5、要使当事人知道如何运用他的分数；6、要考虑测验分数会给当

展开阅读全文