1、 效度的概念 效度的性质 效度检验的前提 效度的证据 效度检验的设计效度的概念现行美国教育和心理测试标准一书对效度作出了如 下定义:Validity is a unitary concept.Although evidence may be accumulated in many ways,validity always refers to the degree to which that evidence supports the inferences that are made from the scores.The inferences regarding specific uses o
2、f a test are validated,not the test itself.效度是一个统一的概念,尽管我们可以以不同的方式收集 关于效度的证据,效度总是指证据支持我们从考试成绩所作出 的各种推测的程度,效度检验检验的是对考试的使用所作的推 测,而不是考试本身。效度的美国教育和心理测量协会(1985):Validity means the degree to which the appropriateness?meaningfulness?and usefulness of the specific inferences made from the test scores.效度是指根据
3、考试分数所作出的特定的推测的适 当、有意义和有用程度。效度的性质效度指的是考试结果解释的合理性,它不是指考试本 身。我们有时出于方便,说“考试的效度”,实际上 正确的说法是对考试结果所做的解释的效度。效度是就程度而言的,不是要么有效,要么无效。因 此,不要说考试结果有效或无效,而应该从确定程度 的类型的角度来考虑效度,如高效度、中等效度和低 效度。效度总是与考试结果的解释或某种特殊的用途有关。世界上没有对所有目的都有效的考试。在讨论效度时,必须考虑对考试结果所做出的专门解释或用途。考试 结果对做出的每个不同的解释都有不同的效度。效度是一个统一的概念。美国心理测量学会在“教育 和心理测量标准”一
4、书中,已经抛弃了多种效度的传 统概念,将效度看作是以各种不同类型的证据为基础 的统一的概念。效度是一个总体的评价判断。它要求用各种证据并且 从后效影响的角度来判断考试结果解释和使用的合理 性和合适性程度。效度与信度概念的辨析假设有一道试题:水稻的茎不能加粗的主要原因是茎内没有()。A.形成层 B.维管束 C.木纤维 D.韧皮纤维假设试题具有下列问题:1、有点科学性问题2、考查牵涉到了化学知识3、考查了学生没有学过的内容4、部分考生抄了别人的正确答案提问:这些问题说明这道试题是信度有问题,还是效度有问题?效度检验的前提条件考试评价的目的要与考试机构的任务和价值观相适应-考试应该有利于高校选拔合格
5、的新生;-有利于促进中学推进素质教育-有利于培养学生的创新精神和实践能力要明确地确定或描述要测量的心理结构(知识、能力或 其他特征),对分数或其他评价结果要作出的解释。-测量目标和行为标准-确定结构的特征是需要谨慎,只能将考试技术能够测量的 特征或行为包括在结构的特征描述之中,不能测量的特征 不能包括在其中-结构的特征一旦确定,就是排它的、武断的。确定所要收集的证据的类型和数量效度的证据 考试内容 考生的应答过程 评分标准与定义的心理结构及 其行为标准的一致性 考试的内部结构 考试与效标(标准)的关系效度的证据内容考试内容方面的证据-确定每道试题测量的行为目标,涉及到内容领域那些内 容;-比较
6、考试的内容结构与学科内容领域的结构是否一致。收集证据的方法-考试机构自己对照考试规范或考试大纲进行检查-发放问卷调查表给学科教师或专家进行调查-由专家按照详细的一系列标准给每道试题和整张考卷进 行定量打分或定性评价Q效度的证据考生的应答过程考试是从认知心理学的角度来看待考试结果反映考生心理结 构的程度,也就是说从考察学生回答问题时发生的心理过程 或思维过程的角度来看待结构效度的。使用某些问题或试题 来测量思维能力时,需要问题或试题能够引发考生进行一定 的思维活动,这个活动反过来引发考生显示出我们希望考生 显示的行为。只有在这样的情况下,问题才是有效的,得到 的结果才能是考生某一心理结构的测度。
7、分析考生答题的思维过程的主要方法包括-调查问卷分析A-计算机模拟分析-面谈记录分析a评分标准与定义的心理结构 及其行为标准的一致性命题时制定的评分标准应该与定义的心理结构及其 行为标准相一致具体评分时,评分标准的细化应该以行为标准的表 现出来与否为得分步骤,而不一定是以做出来一步 给多少分。有可能做出来的两步都是一个行为表现。A考试与效标的关系效度检验过程中,我们还要收集另外一类证据或 信息,这就是能够证明我们的考试结果与某个其 他的“标准”之间关系的证据或信息,这个“标 准”与我们的考试测量了考生相同的能力,我们 将这个标准称为效标。效标应该是反映考生行为 的另外一个考试的结果。与效标相关的
8、证据-研究的考试分数与效标考试的分数相联系-效标实际上是考生的某种行为表现,考生在该行为 上的得分,可以用来预测未来。高中阶段学习的效果中考大学阶段的学习效果高考考试与效标的关系研究考试与效标之间的相关关系-根据研究考试的结果预测未来考试的结果方式线性回归预测X:研究考试的分数Y:效标考试的分数获得一组样本(X,占).(X,工)我们可以获得y关于x的回归关系:Y=a bX歹是y的最佳估计值。注意这里 P是点估计值。考试与效标的关系研究考试与效标之间的相关关系-根据研究考试的结果预测未来考试的结果方式线性回归预测2R2-_八 XV-2r2+(l-r2)x.考试 y效标x-待检验的考试样本 y-效
9、标考试样本一待检验的考试样本标准差S-待检验的考试总体标准差。-待检验的考试样本与效标考试样本间的相关关系考试与效标的关系效标考试的类型-预期效标估计-同期效标估计预期效标估计-用分数来预测将来的行为获取效标测试的相关系数 对所有相关的考生进行测试 等待一定的合理的时间 收集效标测试的分数,计算相关系数考试与效标的关系同期效标估计-检查与同期考试的相关关系检查能力水平不同的考生,在两个考试中考试结果 的差别。-效标应该是同样类型的考试。所谓同样类型的考试是与我们研究的考试测量相同 的能力或心理结构的考试,如果没有这个前提,我 们就失去了把二者间的相关关系解释为效度证据的 基础。考试的内部结构考
10、试的结构方面的证据-考试的结构方面的证据是要证明考试测量它所 设计测量的心理结构的精确程度-结构方面的证据的收集是一不断的过程。不同测量目标或行为目标之间的相关关系 不同测量目标或行为目标的因子分析 实验设计。考试的内部结构考试的结构方面的证据-不同测量目标或行为目标之间的相关关系 不同行为变量之间的相关关系 不同行为变量与考试总分之间的相关关系。不同行为变量与考试总分减去相应变量分数后的相关-不同测量目标或行为目标的因子分析考试内容证据收集量表举例试题行为 目标内容 领域试题测量了相应的行为目标,覆盖 了相应的内容领域。描述完全 同意基本 同意3基本不 同意完全不 同意1目标1领域12目标2
11、领域13目标1领域24目标3领域25目标4领域36目标2领域37目标3领域4考试内容证据收集量表举例专家姓名:_ 日期:说 明:阅读提供的考试说明中考试的测量目标及相应的行为目标、考查的学科内 容领域,并阅读试题及其评分标准;检查试题及其评分标准与测量的行为目标、内容领 域是否一致,并按照以下标准进行评分:试题与行为目标一致,对试题的应答需要涉及到相应内容领域知识,且评分标准 是根据考生行为的表现程度和/或知识的应用程度进行评分。5=如果你完全同意上述评价4=如果你基本同意上述评价3=如果你不能准确判断上述评价的有效性2=如果你基本不同意上述评价1=如果你完全不同意上述评价如果对试题与上述的一
12、致性有任何评价意见,请写在相应的栏目中。试题能力内容领域评分评价意见1I 4中国/世界地理 气候和农业2I 3自然地理天体系统3I 3自然地理三大岩石4IH2世界地理气候 考试内容证据收集量表举例专家姓名:_ 日期:说 明:阅读表中每一条行为目标,阅读相应试题及其评分标准,检查 试题及其评分标准与测量的行为目标是否一致,并按照以下标准进行评分:+1=试题与行为目标一致或高度一致0=试题与行为目标大致一致-1=试题与行为目标不一致如果对试题与行为目标的一致性有任何评价意见,请写在相应的栏目中。理解文章的主要内容。评分评价意见目标2:归纳文章的主旨大意。考生应答过程分析调查问卷表姓名毕业学校准考证
13、号码请阅读以下答题策略,回答你在考试过程中做每道试题时采用了那种策略(在相 应的策略栏中打勾)。如果以下策略不在你采用的策略中,请在以下空白栏中填 写出来,并在相应的栏目中打勾。(注:一个试题可以选择多个相关策略)lo猜测 2。阅读问题前先阅读选项3。阅读完问题后再阅读选项进行选择 4。阅读语段前,先阅读问题5。阅读完语段后,再阅读问题 6。阅读问题后,再到内容中寻找答案7。根据问题所在位置紧邻的上下文寻找信息8。对整个语段理解后再回答问题9。先将问题(在心中)翻译出来再回答问题10。根据问题或选项中单词与语段中单词的相似性做出选择 Ho12o123456789101112试题1试题2试题3
14、考生应答过程分析.面谈分析崇明岛开发前景良好的可再生能源是一一(单项选择)A.水能 B.风能 C.核能 D.地热能考试结束后对部分考生进行面谈时发现,他们回答问题时 的思维过程有如下几种:1、崇明岛没有核电站,选项C不对;没有听说崇明岛有地 热资源,选项D也不对;崇明岛地处长江口,靠近东海,水资源非常丰富,因此,当时选择A为正确。2、崇明岛没有核电站,选项C不对;听说崇明岛有温泉浴 场,因此当时选择D正确。3、核能不是可再生能源,选项C不对;现在上海有很多温 泉浴场,估计崇明也有,因此当时选择D正确。考生应答过程分析.面谈分析崇明岛开发前景良好的可再生能源是(单项选择)A.水能 B.风能 C
15、核能 D.地热能考试结束后对部分考生进行面谈时发现,他们回答问题时 的思维过程有如下几种:4、崇明岛地处长江口,水资源非常丰富,因此,当时选择 A为正确。5、核能不是可再生能源,选项C不对;上海乡土地理书上 没有介绍过上海丰富的地热资源,选项D也不对;崇明 岛地势平缓,岛内没有大的河流,不会有丰富的水能资 源,因此,选项A也不对;那么只有选项B是正确的。考生应答过程分析.面谈分析崇明岛开发前景良好的可再生能源是(单项选择)A.水能 B.风能 C.核能 D.地热能考试结束后对部分考生进行面谈时发现,他们回答问题时的 思维过程有如下几种:6、核能不是可再生能源,选项C不对;上海乡土地理书上没 有
16、介绍过上海丰富的地热资源,选项D也不对;崇明岛地 势平缓,岛内没有大的河流,不会有丰富的水能资源,因 此,选项A也不对;崇明岛地处长江口,长江与东海交汇 处,岛内地势平缓,附近没有高山等阻挡,风能应该比较 丰富,因此,选项B是正确的。考生应答过程分析.面谈分析崇明岛开发前景良好的可再生能源是(单项选择)A.水能 B.风能 C.核能 D.地热能 设计这一试题是想了解考生“分析、解释各类地理事物 的空间结构、联系及其发展变化规律”的能力”。从考查的行为目标看,显然只有第6种思维活动是正确 的思维过程。第1到4思维活动,反映了考生这方面能力还有欠缺;第5项思维活动,只是从应试技巧的角度,排除了其他
17、三种选择,但并没有真正理解为什么风能是崇明岛开发 前景良好的可再生能源。尽管其回答是正确的,但这一 题上的结果并不能作为其这方面能力的标志。根据测量的行为目标的表现水平赋分某市2004年底有住房面积1200万平方千米,计划从2005年起,每 年拆除20万平方千米的旧住房。假定该市每年新建住房面积是上年住 房面积的5%。(1)分别求2005年底和2006年底的住房面积;(2)求2024年底的住房面积。(计算结果以万平方米为单位,且精确 到 0.01)2005年底的住房面积为:1200(1+5%)-20=1240(万平方米).3分2006年底的住房面积为:1200(1+5%)2-20(1+5%)-
18、20=1282(万平方米).3分2024年底的住房面积为:1200(1+5%)20-20(1+5%)19-20(1+5%)18-20(1+5%)-20 4分1 ns_ 1=1200(1+5%)20-20 x-x 2522.64(万平方米)4分0.05飞险4A/艮据测量的行为目标的表现水平赋务11T分析解决问题的能力2005年卜的住房面为为:/1200(1+5%)-20=1240(万平方米/.3分2006年底的住房面积为:/1200(1+5%)2-20(1+5%)-20=1282(万平方4.3分2024年底的住房面积为:/1200(1+5%)20-20(1+5%)19-20(1+5%)18-.-
19、20(1+5%)-20 4分二1200(1+5%)写出求和公式1写出求和算式2-20 x252264(万平方米)计算能力4分正确计算出结果3根据测量的行为目标的表现水平赋分25.(8分)鸡蛋不能放进微波炉加热,否则鸡蛋会爆炸。但直接把鸡蛋放在锅里用水煮是不会爆炸的。你如何解释 这现象?【行为目标】理解科学原理【内容领域】物质科学/运动与相互作用【难度】0.4【题型】简单题t艮据测量的行为目标的表现水平赋分编号回答较高水平的回答(8分)20从蛋内温度及体积变化来分析例1:用微波炉煮可以使鸡蛋内部高于100。3 使鸡蛋内水分变成气态,体积变大,导致爆炸 o而用水煮,水只能达到100。3不会使鸡蛋达
20、 到100里以上。29其他正确的回答根据测量的行为目标的表现水平赋分一般水平的回答(5分)10从加热快慢程度来分析例1:微波炉煮的升温较快,热胀冷缩导致鸡蛋会 爆炸。而水的比热容大,吸热所要的时间较长,不 容易导致热胀冷缩。例2:因为把鸡蛋放在水里煮,温度是慢慢升高的O11蛋内外压强差来分析例1:在微波炉里,鸡蛋内部的压强大于外部,所 以会爆炸。而放在水中,压强没有大于外部,所以 就不会爆炸。根据测量的行为目标的表现水平赋分12从温度的高低来分析例1:因为微波炉是直接加热的,很容易使鸡蛋温 度过高而爆炸。而用水煮是间接加热的,而且水 的沸点是100。3不会对鸡蛋造成过度加热。例2:因为微波炉中
21、的温度超过100吃,而水中煮 最多100。3所以不会爆炸。其他部分正确的回答。根据测量的行为目标的表现水平赋分错误回答(0分)70从空间的密封性来分析,微波炉密封从而炉内压强 过大,乳鸡蛋压炸例1:微波炉是一个密封的空间,而放在锅里空间就 比较大,空气也多,所以不会爆炸。例2:因为微波炉内部是密封的,使大量热量在微波 炉里不能放好出来,使鸡蛋承受不住,致使爆炸 o水煮不是密封环境。71水能吸收鸡蛋的热量,使鸡蛋不会爆炸例1:因为水的沸点是1000C,要想继续沸腾必须吸 热,所以把鸡蛋的热量给吸走了,就不会爆炸。根据测量的行为目标的表现水平赋分72水是湿的或微波炉内是干的,所以爆炸例1:因为水是
22、液体,而微波炉内是干热的气体,所以鸡蛋放进去可能会爆炸。例2:因为鸡蛋在微波炉煮时太干,所以鸡蛋会爆 炸,而鸡蛋在水中煮时四周都出水。79其他错误回答例1:因为生鸡蛋是液体,鸡蛋熟后是固体,放进 微波炉煮,生变熟后物体膨胀,所以爆炸,但放 入水中煮是水的沸腾煮熟鸡蛋的。例2:因为在微波炉里没水,是像真空一样的,而 且鸡蛋又有壳,而在水里煮是可以的。例3:锅里带有油、水,使鸡蛋滑,锅受热也均匀 o而微波炉中,它只能烧到一面,而另一面则是 生的,产生了温度差。根据测量的行为目标的表现水平赋分没有回答,0分。99空白不同行为变量之间的相关关系基本思想-考试的每一个行为变量测量的是同一测量目标的不同
23、的方面,它们之间既相互有联系,又有区别,它们对 测量考生在所考学科方面的知识与技能、方法与能力 都可以做出贡献。一般判别要求-一般认为考试不同行为变量的相关关系不应太高,也 不应太低,一般应该在0.3到0.6。-如果两个部分的相关系数相当高,如0.85或0.9,就可 以怀疑这两部分是否测量了相同的行为目标。不同行为变量与考试总分之间的相关关系基本思想-总分应该是考试的测量目标的更加一般的测度,每一 行为变量都应该对测量目标做出较大的贡献。一般的判别要求-某一行为变量与考试总分间的相关关系应该比较高,一般应在0.7以上。不同行为变量与考试总分减去相应变量分数后的相关关系基本思想-考试总分中包含了
24、考试各个行为变量的贡献,某一行 为变量与总分的相关关系实际上也受到该行为变量自 相关的影响,获得的相关系数可能偏大。基于这个考 虑,一种常见的做法就是:计算某一行为变量与总分 的相关系数时,从总分中删除该行为变量的分数。一般的判别要求-不同行为变量与考试总分减去相应变量分数后的相关 关系,如果仍然能在0.7以上就很好了。内部结构方面的证据变量之间的相关关系变量1变量2变量3变量4变量5变量6变量7总分总分减 变量 自身变量110.560.530.410.550.510.500.760.70变量210.600.430.590.530.510.820.74变量310.480.590.540.620
25、910.85变量410.480.490.330.800.73变量510.5240.610.920.84变量610.510.840.78变量710.710.64因子分析(Factor Analysis)因子分析的基本思想-用少数的假设变量来代替观察的变量。用因子分析方法确定内部结构中,-观察的变量就是每道试题要测量的具体的行为目标,考生 在该道试题上的得分,就是该变量上的一系列观察值;-假设的变量就是我们想要解释的结构、测试方法或其他影 响考生行为的因素。这些假设的变量称为因子。因子分析所获得的结果之一就是因子负荷-因子负荷反映了观察的变量和假设的因子间的关系。因子分析(Factor Anal
26、ysis)表 2002年高考英语因子分析结果Extraction Method:Principal Component Analysis.a.When analyzing a covariance matrix,the initial eigenvalues are the same across tl and rescaled solution.Initial Eigenvalue%Extraction Sums of Squared LoadingsTotal%of VarianceCumulative%Total%of VarianceCumulative%Raw 1240.05857.
27、20857.208240.05857.20857.208241.8009.96167.17041.8009.96167.170336.5558.71175.88136.5558.71175.881433.7938.05383.93433.7938.05383.934533.1787.90791.84133.1787.90791.84163.428.81792.65871.991.47593.13281.134.27093.40291.031.24693.648Rescaled 1240.05857.20857.20810.94911.77311.773241.8009.96167.170.574.61712.390336.5558.71175.881.539.58012.970433.7938.05383.934.638.68613.656533.1787.90791.841.525.56414.22163.428.81792.65871.991.47593.13281.134.27093.40291.031.24693.648I因子分析结果解释 提取出了 9个因子。第一个因子解释了总方差的57%,其他各个因 子解释的方差均不到总方差的10%。可以认为当年高考英语上海卷主要测量了考生 某一方面的能力,根据当年考试手册英语部分,可以认为这个能力就是英语语言运用能力。