2023年心理测量知识点之编制测验的一般程序毙考题.doc

资源描述

心理测量知识点之编制测验的一般程序第三章心理测验的编制工欲善其事，必先利其器。为了在研究工作和实践中更好地发挥测验的效能，一方面要编制出各种高质量的、合用的测验。第一节编制测验的一般程序编造测验的方法，依测验的性质而异。不同类型，不同用途的测验，编制的具体过程是不同的。但由于测验原理大体相同，因而可以概括出一套通用的编制程序。总的说来，编制心理测验一般要通过以下几个环节，拟定测验的目的，制定编题计划，编辑题目，题目的试测与分析，集合成测验，将测验标准化，对测验的鉴定，编写测验说明书。一、拟定测验的目的 (一)测量对象在编造测验前一方面要明确测量对象，也就是该测验编成后要用于哪些团队。只有对受测者的年龄、智力水平、社会经济和文化背景以及阅读水平等心中有数，编制测验时才干有的放矢。 (二)测量目的所编的测验用来测量什么，是测能力、人格，还是学业成就，也是必须一方面考虑的问题。不仅要明确测量的目的，还要对测量目的加以分析，将此目的转换成可操作的术语，即将目的具体化。如美国著名测验学家瑟斯顿通过因素分析，将智力分解为七种基本心理能力：语文理解阅读时了解文义的能力。语词流畅对的迅速拼字与灵敏联想词义的能力数字运算对的而迅速使用数字解答算术问题的能力。空间关系运用感觉器官及知觉经验对的判断空间方向及各种关系的能力。机械记忆对事物强记的能力。知觉速度迅速而对的地观测与辨别事物的能力。一般推理根据已知条件推理判断的能力。瑟斯顿根据上述七种因素于1941年编成了基本心理能力测验又如，在60年代后期，人们开始对测量发明力发生爱好。作为指导测验编制的操作定义，有人将发明力看作发散思维的能力，即对规定的刺激产生大量的、变化的、独特反映的能力，据此定义从反映的流畅性、变通性(灵活多变)和独创性三方面来测量发明力。 (三)测量目的所编出的测验是要对被试做描述，还是做诊断，亦或是选拔和预测，这一点也是在测验编制前就应明确的。目的不同，编制测验时的取材范围以及试题难度等也不尽同。譬如，中学毕业考试的目的是考察学生是否掌握了中学阶段所学的各学科的基本知识，在命题时重要注意取材的代表性，不必过多参考虑题目的难度。而大学入学测验的目的是把学生作区分，以便择优录取，因此试题取样的代表性并不重要(在我国，高考事实上还具有左右中学教学的指挥棒作用，所以应考虑题目取样是否符合教学大纲)，但必须根据录取率来拟定适当的难度。而一个学科诊断测验，则只要能找出学生学习困难之所在就可以了，对题目的难度和取样的代表性都不必考虑。二、制定编题计划编题计划，事实上就是编制测验的蓝图，通常是一张双向细目表，指出测验所包含的内容和要测定的各种技能，以及对每一个内容、技能的相对重视限度。不同的测验有不同的内容和技能，对于学绩测验来说，所谓内容就是某一学科教材中的各个课题;所谓技能，就是在教学中要达成的行为目的。美国心理学家布鲁姆(B S BlJoom)最早提出教育目的的分类问题。他把学习的心理活动过程提成认知、精神运动和情感三个领域，又把认知领域具体分为知道(记忆事实、条件、方法、原理等的能力)、理解、应用、分析、综合、评价六个层次。在布鲁姆等人编的《教育目的的分类》一书中，为每个认知层次提供了许多题目范例。后来人们一般就依据布鲁姆的认知性行为目的编拟学科试题，以测量学生的学习结果。表3 1是一个小学高年级自然常识测验的编题计划。表中的数字代表每一类题目所占的比例，这些比例反映着每一个内容及目的的相对重要性。在编制标准化的学绩测验时，这种双向细目表是由学科专家和有经验的教师，在对教材和教学大纲仔细分析的基础上，通过集体讨论制定的，以保证分类合理，比例恰当。表3一1小学自然常识测验编题计划获得基本知识理解原理原则应用原理原则分析因果关系综合成系统见解建立评价标准合计生物世界 3 5 6 3 2 1 20 资源运用 2 3 3 1 1 0 10 动力和机械 2 3 4 2 0 1 12 物质、物性与能量 5 6 8 3 2 1 25 气象 2 4 3 2 2 0 13 宇宙 2 5 4 1 0 0 12 地球 2 2 2 1 1 0 8 合计 18 28 30 13 8 8 100 [page] 测验计划有两个用途： (一)在编题阶段，测验计划指出应当写多少和写哪些种类的题目;题目编好后可将题目的实际分布情况与测验计划对照，以拟定测验题目是否恰本地代表了所要测量的领域，核对重要方面的内容是否有漏掉。 (二)在记分时可按表中比例拟定每类题目的分数。三、编辑项目或题目 (一)搜集有关资料测验计划编好后，就要搜集有关资料作为命题取材的依据，一个测验的好坏和测验材料的选择适当与否有密切关系。为此要注意以下几个问题： 1.材料要丰富资料搜集愈齐全，命题工作便愈顺利，这样测验内容便不致有所偏颇，并且能提高行为样本的代表性。如编制人格测验，搜集的资料应涉及：人格的重要理论，用于描述人格的术语，临床观测的资料，以及其它人格调查表的题目等。 2.材料要有普遍性所选择的材料对测验对象要尽也许公平，即受测者都有相等的学习机会。譬如，编制标准化的学科成绩测验时，要以统一的教学大纲和统编教材作为题目来源，不能只考虑个别教师的意见，而要考虑大多数教师和专家的意见。在编制智力测验时则要尽量避免特殊知识经验和文化水平的影响。 (二)选择项目形式测验编制者还必须拟定题目的表现方式，是纸笔测验还是操作测验，是只要受测者认出对的答案，还是需要他自己做出对的答案。在大多数情况下，任何题目都可以用几种形式呈现，问题是如何选择最优的形式(各种题目形式的比较和编题原则，在下一节具体讨论)。在一个测验中，可以采用一种形式，也可以采用几种形式。在选择题目形式时，要考虑以下几点： 1.测验的目的和材料的性质假如要考察学生对概念和原理的记忆，适于用简答题，要考察对事物的辨别和判断，适于用选择题，而要考察综合运用知识的能力，则适于用论文题。 2.接受测验的团队的特点如对幼儿宜用口头测验，对于文盲识字不多的人不宜采用规定读和写的项目，而对有言语缺陷的人(如聋哑，口吃)则要尽量采用操作项目。 3.各种实际因素譬如，当被试人数过多，测验时间和经费又有限时，宜用选择题进行团队纸笔测验，而人数步，时间富余，又有某些实验器和设备，则可用操作测验。我国的廖世承、陈鹤琴先生几十年前曾提出以下几条选择测验形式的原则：使被试者容易明了测验作法;在做测验时不会弄错;做法简明省时，计分省时省力;经济。 (三)编写和修订题目制定测题的过程涉及，写出、编辑、预试和修改等一系列过程。在获得一个令人满意的测题之前，这些环节是不断反复的。在这个过程中，编制者和有关方面专家要对题目反复审察修订，改正意义不明确的词语，取消一些反复的和不合用的题目。然后将初步满意的题目集起来组成一个预备测验。编写题目要注意以下几个问题。 1.题目的范围要与测验计划所列的内容技能双维表相一致。 2.题目的数量要比最后所需的数目多一倍至几倍，以备筛选和编制复份。 3.题目的难度必须符合测验目的的需要。 4.题目的说明必须清楚明白。四、项目的试测和分析初步筛选出的项目虽然在内容和形式上符合规定，但是否具有适当的难度与鉴别作用，必须通过实践来检查，也就是要通过预测进行项目分析，为进一步筛选题目提供客观依据。 (一)试测项目性能之优劣，不能仅凭测验编制者主观的臆测来决定，必须将初步筛选出的项目结合成一种或几种预备测验，通过实际的试测而得客观性资料。预测应注意以下几个问题： 1.预测对象应取自将来正式测验准备应用的群体。例如，对于一个学绩测验来说，进行预备测验的学生必须和测验所指定的被试属于同一个年级。并且具有相同的课程背景。取样时应注意其代表性，人数不必太多，亦不可过少。 2.预测的实行过程与情境应力求与将来正式测验时的情况相近似。 3.预测的时限可稍宽一些，最佳使每个受试者都能将题目做完。以搜集较充足的反映资料，使记录分析的结果更为可靠。 4.在预测过程中，应对受试者的反映情形随时加以记录，如在不同时限内一般受试者所完毕的题数、题意不清之处及其他有关问题。预测的目的在于获得被试对题目如何反映的资料，它既能提供哪些题目意义不清，容易引起误解等质量方面的信息，又能提供关于题目好坏的数量指标，并且通过预测还可以发现一些本来想不到的情况，如检查时限长合适，在施测过程中尚有哪些条件需要进一步控制等。 (二)项目分析对项目的分析涉及质的分析和量的分析两个方面。前者是从内容取样的适切性，题目的思想性以及表达否清楚等方面加以评鉴，后者是对预测结果进行记录分析，拟定题目的难度、区分度、备选答案的合适度等。编制一套测验，只依据一次预测的结果所作的题目分析是不够的。由于预测的被试样本也许会有取样误差，故由此得到的项目分析结果未必完全可靠;为了检查所选出的项目的性能是否真正符合规定，通常需再选取来自同一总体的另同样本再测一次，并根据其结果进行第二次项目分析，看两次分析结果是否一致。假如某个题目前后差距较大，说明该题的性能值得怀疑。这种在两个独立样本中进行项目分析的过程叫做复核。 [page] 五、合成测验通过预测和项目分析，对各个题目的性能已有可靠的资料作为评价的根据，下一步就可以选出性能优良的题目加以适当的编排，组合成测验。 (一)项目的选择在选择项目时，不仅要考虑项目分析所提供的资料，还要考虑测验的目的、性质与功能。最佳的题目，就是只测定所需要的特性，并能对该特性加以有效区分的难度合适的题目。一方面是要测定所需要的特性，假如我们想测定语言推理能力，就不要涉及重要测量阅读能力或算术知识的项目。题目性能好坏是相对的，不同的测验对题目的难度和区分度有不同的规定。一般说来，题目的区分度越高越好，这是选择题目的一条重要标准。特别是对于选拔测验，此条尤为重要。但有时根据需要也可以保存个别鉴别力不高的题目。如在学科成就测验中有些内容十分重要，即使区分度低一些，也要涉及在内。选择题目的另一个指标是难度.难度多大合适并无一个绝对标准，而要根据测验目的来拟定。有的规定难一些，有的则规定容易一些，有的可不考虑难度，就是同一张试卷，题目难度也可以不同，只要整个测验的平均难度符合测验规定即可。根据题目分析资料选出的题目，还要与测验计划(双向细目表)再次对照，看看在材料内容以及所测量的认知技能上的比率是否与计划相符，必要时须加以适当调整。此外题目的数量还必须适合于所限定的时间。 (二)项目的编排项目选出之后，必须根据测验的目的与性质，并考虑受试者作答时的心理反映方式，加以合理安排。在测验开头应当有一，两个十分容易的题目，以使受测者熟悉作答程序，解除紧张情绪，建立信心，进入测验情境。对试题的总的编排原则是要由易到难。这样可避免受测者在难题上耽搁时间太多，而影响对后面问题的解答。在测验最后可有少数难度较大的题目，以测出受测者的最高水平。下面是两种常见的排列方式： 1.并列直进式此种方式是将整个测验按试题材料的性质归为若干分测验，在同一分测验的试题，则依其难度由易到难排列。 2.混合螺旋式此种方式是先将各类试题依难度提成若干不同的层次，再将不同性质的试题予以组合，作交叉式的排列，其难度则渐次升进。此种排列的优点是，受试者对各类试题循序作答，从而维持作答的爱好。 (三)编造复本为增长实际的效用，一种测验至少要有等值的两份，份数越多，使用起来愈便利。例如，我们要用测验来考察一班学生在一学期中的进步，必须测量两次，一次在开学初，一次在学期末，两次结果的差别代表一学期中成绩的提高。假如测验只有一份，用两次就难免有练习的影响，不能完全代表进步的数量。要是这个测验有好几份替换使用，就可以免掉这种困难。测验的各份复本必须等值，所谓等值需符合下列几个条件： 1.各份测验测量的是同一种心理特性。 2.各份测验具有相同的内容和形式。 3.各份测验的题目不应有反复的地方。 4.各份测验题目数量相等，并且有大体相同的难度和区分度。 5.各份测验的分数分布(平均数和差异度)大体相等。只要有足够数量的题目，编造复本的手续是很简朴的。先将所有合用的题目按难度排列，其顺序为1、2、3、4、5、6、假如要提成两个等值的测验本，可采用下面的分法。 A本：1、4、5、8、9、12、13、16、17、20、 B本：2、3、6、7、10、11、14、15、18、19、假如要提成三个等值的测验本，可用采下的分法： A本：1、6、7、12、13、18、19、24、 B本：2、5、8、11、14、17、20、23、 C本：3、4、9、10、15、16、21、22、采用上面的分法可使复本之间在难度上基本相等，从而获得大体相同的分数分布。复本编好后，应当再试测一次，以决定各份究竟是否等值。 [page] 六、将测验标准化套好的题目并不一定是一个好的测验。对于测验的基本规定是准确、可靠。为了减少误差，就要控制无关因素对测验目的的影响，这个控制的过程，称作标准化。具体涉及以下几方面： (一)内容标准化的首要条件，是对所有受测者施测相同的或等值的题目。测验的内容不同，所得的结果便无法比较。 (二)施测尽管对于所有的受测者使用了相同的题目，但假如在施测时各行其是，所得的分数也不能进行比较。为了使测验条件相同，必须有统一的指导语和时间限制。 1.指导语给受测者的指导语属于测验刺激的一部分，它的内容通常涉及对测验目的说明和受测者应当如何作答的指示(涉及如何选择反映、记录反映、以及时限等)。对于纸笔测验来说，这些指示一般印在测验的开始部分，也可以印在此外一张纸上。规定简朴明确，不引起误解。假如题目形式对被试是生疏的，还应当有一些例题。指导语会直接影响受测者的作答态度与方法。有人以不同的指导语对几组被试实行同一个能力测验，结果表白，将该测验说成智力测验的一组，成绩最高;将之说成平常测验的一组，成绩最纸。为了保证测验情境的一致，还要有对主试者的指导语，重要是对测验细节作进一步解释，以及其它一些有关事项，涉及测验房间场地的安排(照明、桌掎、隔音、温度等)，测验材料的分发，如何计时、记分，对被试的各种提问如何回答，以及在测验半途发生意外情况(如停电，有人迟到，生病;作弊等应当如何解决。由于主试者的一言一行，甚至表情动作都会对受测者产生影响，所以主试者一定要严格遵守施测指导，不要任意发挥和解释。总的规定是，无论什么人、在什么时候、什么地点使用同一测验，都必须做同样的事，说同样的话。对主试者的指导语与测验是分开的。 2.时限拟定测验的时限，要考虑施测条件和实际情况的限制(如一节课时间的长度)，以及被试的特点(如对儿童、老人、病人施测时间不宜过长)，但是更重要的是考虑测量目的的规定。对于人格测验来说，反映速度是不重要的，可不必规定严格的时限，但是在测量能力和学绩成就时，速度是需要考虑的一个重要因素。依据速度在活动中所起的作用，可以把测验提成速度测验和难度测验。纯速度测验时间应当严格限制，使被试中没有人能在规定期间内做完所有题目。纯难度测验只考察被试解决难题的水平而不考虑完毕时间。事实上，大多数能力和学绩测验介于上述两者之间，既考察反映的速度也考察解决难题的能力。通常所用的时限是使大约90%的受训者能在规定期间内完毕所有测验，假如题目由易到难排列，应使大多人在规定对间内完毕他会答的问题。拟定期限一般采用尝试法，即通过预测来决定。假设根据第一次试测的经验，我们估计大部分被试可以在25分钟内做完，在第二次试测时，可以先叫被试用黑铅笔做20分钟，然后换成红铅笔，再过5分钟换成蓝铅笔，这样便可了解被试在规定期间内完毕题目的数量。另一种方法是在施测现场挂一只钟，每个被试做完后即将当时时间写在试卷末尾。试卷收齐之后再根据被试完毕情况规定合适的时限。 (三)评分标准化的第三个要素是客观评分。客观性意味着在两个或两个以上的受过训练的评分者之间有一致性。只有当评分是客观的时候才可以把分数的差异完全归诸受测者的差异。一般说来，自由反映的题目(如问答题、论文题等)评分者之间很难取得完全一致，而选择题的评分较为客观，因此有人将选择题组成的测验叫客观性测验。无论哪种测验，为使评分尽也许客观，有三点规定： 1. 对反映的及时的和清楚的记录。特别是对口试和操作测验，此点尤为重要，必要时可以录音和录象。 2. 要有一张标准答案或对的反映的表格，即计分键。选择题测验的计分涉及一系列对的的答案和允许的变化;论文题的计分键包含各种也许答案的要点;人格测验不也许有明确而统一的答案;计分键上指明的是具有或缺少某种人格特性者的典型反映。 3. 将受测者的反映和计分键比较，对反映进行分类。对于选择题来说，这个程序是很容易的，但是当评分者的判断也许是一个起作用的因素时(如问答题、论文题)，就需要对评分规则作具体的说明，评分时将每一个人的反映和评分说明书上所提供的样例相比较，然后按最接近的答案样例给分。无论采用何种评分方法，都必须符合客观、对的/经济/实用四项原则。 (四)常模一个标准化测验，不仅内容、施测和评分要标准化，对分数的解释也必须标准化，假如同一个分数可做出不同的推论，测量便失去了客观性。多数测验用常模作解释分数的依据。测验分数必须与某种标准比较，方能显出它所代表的意义。例如。某学生成绩单上写着：物理 85分。我们仅从这个分数很难断定他学得如何，由于没有一个比较的标准。在传统心理测验中，是把个人所得的分数与代表一般人同类行为的分数相比较，以判别其所得分数的高低。此处所指的代表一般人同类行为的分数，即为常模。例如，以摄氏温度计，便可确诊为发热，由于一般人的正常体温是37℃，这就是成人体温的常模。建立常模的方法是，在将来要使用测验的全体对象中，选择有代表性的一部分人(称标准化样本)，对此样本施测并将所得的分数加以记录整体，得出一个具有代表性的分数分布。标准化样本的平均数，即为该测验的常模。常模可因标准化时选取样本的不同而有不同的类别。常见的有年龄常模、年级常模、性别常模、地区常模、民族常模、职业常模等。七、对测验的鉴定测验编好后，必须对其测量的可靠性和有效性进行考验，为此就要进行测量学方面的分析，搜集信度和效度资料。 (一)信度信度指的是测量的可靠性或一致性。我们用钢片卷尺去量黑板的长度，所得的结果是可靠的，由于无论是由一个人量数次还是分别由几个人去量，所得的结果都是一致的。假如我们改用橡皮筋做的软尺去测量黑板的长度时，由于拉力大小不同，多次或多人测量所得的结果就难得一致。因此，用橡皮筋做的软尺测量长度是不可靠的，也就是说，这样的测量工具是缺少信度的。一个测验在标准化的时候，必须拟定它的信度。拟定信度多采用相关法。以相关系数的大小表达信度的高低。 (二)效度效度指的是测量的有效性或对的性，这是测量工具的最基本的规定。衡量一个测量工具有没有效，就是看它所测量的是不是它所要测的东西。例如，以磅秤量体重是有效的，但假如用它量身高，虽然多次测量结果一致(信度高)，但所得的数量并不能代表个人的身高，因此对量身高来说，磅秤是个无效或效度极低的工具。在编制心理测验时，如何提高效度，无疑是个首要的问题。效度的拟定方法，视测量的性质和目的而定。一般将效度分为三大类：实证效度、内容效度、构想效度。关于信度和效度问题，本书后边有专章讨论。八、编写测验说明书为使测验可以合理地实行与应用，在正式测验编写完毕后，还要编制一份说明书，就下列问题作出详尽而明确的说明： (一)本测验的目的和功用。 (二)编制测验的理论背景以及选择题目的根据。 (三)测验的实行方法、时限及注意事项。 (四)测验的标准答案和评分方法。 (五)常模资料，涉及常模表，常模合用的团队及对分数如何做解释。 (六)测验的信度效度资料，涉及信度系数，效度系数以及这些数据是在什么情境下得到的。通过以上八个环节，一个测验便可正式交付使用了。

展开阅读全文