资源描述
3教育测量与试题评价.doc
教育测量与试题评价
一、教育测量中常用的指标
1. 难度
难度是指试题和试卷的难易程度。
(1)通常用难度系数(得分与总分的比值)进行描述;
(2)系数越大,难度越低;
(3)就单个试题而言,难度一般在0.3-0.7之间较好;
(4)同一试题和试卷的难度系数,随被测群体的改变而改变。
2. 区分度
区分度是指试题和试卷对不同考生的知识、能力水平的鉴别程度(区分能力)。
如果一个题目的测试结果是水平高的考生得高分,水平低的考生得低分,那这道题的区分能力就较好。区分度的简单算法:首尾27%差
(1)取值范围[-1,+1],值越大区分效果越佳;
(2)就单个题目而言,一般要求0.3。若区分度≤0.2,区分性较差;区分度≥0.4,区分性较好。
区分度的评价是针对要区分的人群
3. 信度
测试的可靠性,即多次测试的结果是否一致,或一套试卷内,各个试题的测试结果是否一致。
典型的计算方法是分半相关:将全卷全部试题按照题号或者分数分半,得到两个平行的“子试卷”,计算这两个子试卷考生得分的相关系数,然后再用spearman-brown公式校正。信度是考试的随机误差,很多时候和其他非考试的外界因素相关,可控性较小,容易控制的典型方法:主观题给分标准要细致、严格、有一致性。
4. 效度
效度是测验有效性或准确性的指标——达到测量目的的程度。
试卷内容是否是所要考核的内容
(1)关联效度
关联效度是指测评结果与某种标准结果的一致性程度。
需要用一类标准化测验作为某次测验的效标。
(2)内容效度
内容效度是指测验的题目对所要测量的内容具有代表性的程度。—— 一般不用数量化指标来表示
反映测验试题在所要测量的内容范围和教学目标内取样是否充分和确切的问题。
(3)结构效度
结构效度是指考试对理论上的构造或特质的测量程度。
或者说是指测验分数能够说明心理学理论的某种结构或特质的程度,是指实验与理论之间的一致性,即实验是否真正测验到假设(构造)的理论。经历提出关于某一心理特征的假设——设计和编制测验题,并实施——验证与理论假设的相符程度,对标准化考试比较有用,实际操作不实用
二、试题评价
0. 问题情景
设置适当的情景,将数学问题置于一定的背景中,符合新课程理念,也是课程标准和相应教材的特色.但一些测试试题问题情景的选择不恰当,有的在借助适当的情景来构造数学问题方面,还存在牵强附会的问题,这种做法损害了数学的应用价值,对于引导学生在生活中应用数学是不利的.从测试的角度看,不恰当的问题情景必然影响试题的效度和信度。
例 为了提高乒乓球比赛的观赏性,国际乒联采纳了徐寅生的建议,将乒乓球扩大了.球的平面投影是一个圆,设圆心为D,纳入直角坐标系如图所示,已知OA=,OC=3.
(1) 写出直线AC的解析式.
(2) 若线段OA,AC的长是关于x的方程x2-mx+n=0的两根,求m,n的值.
(3) 求出扩大后乒乓球的直径CE的长(单位为厘米).
(4) 若今有半径为2008的⊙P,它与x轴相切,且圆心P在以y轴为对称轴又经过A,C两点的抛物线上,求出P点的坐标.
点评:本题创设的“为了提高乒乓球比赛的观赏性,国际乒联采纳了徐寅生的建议,将乒乓球扩大了”的情景与“球的平面投影是一个圆”没有必然联系,这句话其实是一句与题目设计问题没有实质性联系的废话,它不仅虚假,而且有可能妨碍有的学生对问题的思考.
例 ……(2)旅客王大妈乘火车去女儿家,上车过两站后拿着火车票问乘务员,我快到站了吗?乘务员看到王大妈手中车票的票价是66元,马上说下一站就到了.请问:王大妈是在哪一站下车的?(要求写出解答过程)
点评:本题第(2)问中“乘务员看到王大妈手中票价是66元,马上说下一站就到了”,这与实际不太相符,实际生活中判断是否到站了是看站名而不是看票价,与这种做法相类似,某地设置题目情景中在捐款箱上设置了“成规律的捐款钱数”这样的虚假情景.
1. 难度
问题的难度应该符合《课程标准》的要求,符合测试性质和教学实际要求,针对学生学习特点,充分发挥测评的价值.
例 已知二次函数y=ax2+bx+c.
(1) 若a=2,c=-3,且二次函数的图象经过点(-1,-2),求b的值.
(2) 若a=2,b+c=-2,b>c,且二次函数的图象经过点(p,-2),求证b≥0.
(3) 若a+b+c=0,a>b>c,且二次函数的图象经过点(q,-a),试问自变量x=q+4时,二次函数y=ax2+bx+c所对应的函数值y是否大于0.请证明你的结论.
点评:本题的第(2)问,特别是第(3)问,以近乎高中形式化表达的方式来设计试题,对代数运算能力要求较高,明显高于初中大纲和《课程标准》的要求,明显偏难.
例 在直角梯形ABCD中,AB∥DC,∠B=90°,P为BC上一点.
(1) 若∠APD=90°,找出其中两个相似的三角形,并加以证明;
(2) 若AB=9,DC=4,P为BC的中点,∠APD=90°,求BC的长;
(3) 在(2)的条件下,试探求以AD为直径的圆与BC所在直线的位置关系,并予以证明.
点评:本题是某实验区试卷的压轴题,但考查的内容比较单一,涉及的数学思想方法少,思维方式比较单一,综合性思维水平要求不高,以这样的题作为压轴题,反映出整卷的考查水平与《课程标准》要求的考查标准有一定的差距,这对于推进新课程实施是不利的.当然,这显然不是说压轴题就应该在难度上大做文章.不少地方的压轴题都是代数函数方程或几何的综合性问题,其中有些应用高中知识常规方法容易解决而利用初中知识技巧性很高,这样的考查方向,也是对初中教学是不利的.
2. 区分度
填空题运算过程太复杂、选择题难度过大,解答题超越学习范围和能力等,都不利于区分。
例 已知:如图,在正方形ABCD外取一点E,连接AE,BE,DE.过点作的垂线交ED于点P.
若, PB=.下列结论:
①△≌△;②点到直线的距离为;③;④;⑤.其中正确结论的序号是( )
A.①③④ B.①②⑤
C.③④⑤ D.①③⑤
点评:本题为选择题,但是每个选择支的判断几乎都要经过大量的推理和计算,本身就属于“小题大做”,同时,学生的思维过程也很难通过选择题的形式准确、全面的反映出来,并不利于区分.
3. 效度
3.1 采用陈题降低试题的效度
例 题目1:某商场为缓解我市“停车难”问题,拟建造地下停车库,图6是该地下停车库坡道入口的设计示意图,其中, AB⊥BD,∠BAD=18o,C在BD上,BC=0.5m.根据规定,地下停车库坡道入口上方要张贴限高标志,以便告知驾驶员所驾车辆能否安全驶入.小明认为CD的长就是所限制的高度,而小亮认为应该以CE的长作为限制的高度.小明和小亮谁说的对?请你判断并计算出正确的结果.(结果精确到0.1m)
题目2:为缓解“停车难”问题,某单位拟建造地下停车库,建筑设计师提供了该地下停车库的设计示意图.按规定,地下停车库坡道口上方要张贴限高标志,以便告知停车人车辆能否安全驶入。(其中AB=9m,BC=0.5m)为标明限高,请你根据该图计算CE.(精确到0.1m)
【2005年江苏省苏州市中考试题】
点评:题目1的情境与题目2(2005年苏州市中考题)的情境基本相同,未对该陈题作实质性修改,对是否做过此类题考生存在不公平性,影响了试卷有效考查学生的真实水平的目的,降低了试卷的效度.
3.2 内容超标降低试题的效度
例 如图,直线与x轴、y轴分别交于A、B两点.
(1)将直线AB绕原点O沿逆时针方向旋转90°得到直线A1B1.请画出直线A1B1,此时直线AB与A1B1的位置关系为 (填“平行”或“垂直”);
(2)设(1)中的直线AB的函数表达式为y1=k1x+b1,直线A1B1的函数表达式为y2=k2x+b2,则k1·k2= .
点评:本题第(2)问考查两条互相垂直的直线的斜率关系,该内容是高中解析几何的范围,虽然初中学生可以利用待定系数法分别求出k1、k2得到结果,但是非常繁琐.另外,本题以填空题的形式难以展现学生的思维过程,不能准确考查学生的数学学业的真实水平.
例 《几何原本》的诞生,标志着几何学已成为一个有着严密理论系统和科学方法的学科,它奠定了现代数学的基础. 它是下列哪位数学家的著作
(A)欧几里得 (B)杨辉 (C)笛卡尔 (D)刘徽
点评:本题考查了数学史知识,在课程标准(实验稿)中没有对这一部分做具体的教学内容要求,设置这种纯记忆著作者的试题,失去了对学生数学学业水平与能力的考查效度.
3.3题型运用(设置)不当降低试题的效度
例 如图,以A点为圆心,AB长为半径画弧,交数轴于点M,则点M所表示的数是( ).
A. B.
C. D.
例 关于的方程有实数根,则满足
A. B.
C. D.
点评:本题意图考查学生对“方程有实数根”的理解,“方程有实数根”的理解要从一元一次方程和一元二次方程两种情况来考虑,但本题若认识到a可以等于5,则直接就可以确定为答案A,没有体现考查意图,若将本题设计为填空,则效度会较高.
3教育测量与试题评价.doc
教育测量与试题评价
一、教育测量中常用的指标
1. 难度
难度是指试题和试卷的难易程度。
(1)通常用难度系数(得分与总分的比值)进行描述;
(2)系数越大,难度越低;
(3)就单个试题而言,难度一般在0.3-0.7之间较好;
(4)同一试题和试卷的难度系数,随被测群体的改变而改变。
2. 区分度
区分度是指试题和试卷对不同考生的知识、能力水平的鉴别程度(区分能力)。
如果一个题目的测试结果是水平高的考生得高分,水平低的考生得低分,那这道题的区分能力就较好。区分度的简单算法:首尾27%差
(1)取值范围[-1,+1],值越大区分效果越佳;
(2)就单个题目而言,一般要求0.3。若区分度≤0.2,区分性较差;区分度≥0.4,区分性较好。
区分度的评价是针对要区分的人群
3. 信度
测试的可靠性,即多次测试的结果是否一致,或一套试卷内,各个试题的测试结果是否一致。
典型的计算方法是分半相关:将全卷全部试题按照题号或者分数分半,得到两个平行的“子试卷”,计算这两个子试卷考生得分的相关系数,然后再用spearman-brown公式校正。信度是考试的随机误差,很多时候和其他非考试的外界因素相关,可控性较小,容易控制的典型方法:主观题给分标准要细致、严格、有一致性。
4. 效度
效度是测验有效性或准确性的指标——达到测量目的的程度。
试卷内容是否是所要考核的内容
(1)关联效度
关联效度是指测评结果与某种标准结果的一致性程度。
需要用一类标准化测验作为某次测验的效标。
(2)内容效度
内容效度是指测验的题目对所要测量的内容具有代表性的程度。—— 一般不用数量化指标来表示
反映测验试题在所要测量的内容范围和教学目标内取样是否充分和确切的问题。
(3)结构效度
结构效度是指考试对理论上的构造或特质的测量程度。
或者说是指测验分数能够说明心理学理论的某种结构或特质的程度,是指实验与理论之间的一致性,即实验是否真正测验到假设(构造)的理论。经历提出关于某一心理特征的假设——设计和编制测验题,并实施——验证与理论假设的相符程度,对标准化考试比较有用,实际操作不实用
二、试题评价
0. 问题情景
设置适当的情景,将数学问题置于一定的背景中,符合新课程理念,也是课程标准和相应教材的特色.但一些测试试题问题情景的选择不恰当,有的在借助适当的情景来构造数学问题方面,还存在牵强附会的问题,这种做法损害了数学的应用价值,对于引导学生在生活中应用数学是不利的.从测试的角度看,不恰当的问题情景必然影响试题的效度和信度。
例 为了提高乒乓球比赛的观赏性,国际乒联采纳了徐寅生的建议,将乒乓球扩大了.球的平面投影是一个圆,设圆心为D,纳入直角坐标系如图所示,已知OA=,OC=3.
(1) 写出直线AC的解析式.
(2) 若线段OA,AC的长是关于x的方程x2-mx+n=0的两根,求m,n的值.
(3) 求出扩大后乒乓球的直径CE的长(单位为厘米).
(4) 若今有半径为2008的⊙P,它与x轴相切,且圆心P在以y轴为对称轴又经过A,C两点的抛物线上,求出P点的坐标.
点评:本题创设的“为了提高乒乓球比赛的观赏性,国际乒联采纳了徐寅生的建议,将乒乓球扩大了”的情景与“球的平面投影是一个圆”没有必然联系,这句话其实是一句与题目设计问题没有实质性联系的废话,它不仅虚假,而且有可能妨碍有的学生对问题的思考.
例 ……(2)旅客王大妈乘火车去女儿家,上车过两站后拿着火车票问乘务员,我快到站了吗?乘务员看到王大妈手中车票的票价是66元,马上说下一站就到了.请问:王大妈是在哪一站下车的?(要求写出解答过程)
点评:本题第(2)问中“乘务员看到王大妈手中票价是66元,马上说下一站就到了”,这与实际不太相符,实际生活中判断是否到站了是看站名而不是看票价,与这种做法相类似,某地设置题目情景中在捐款箱上设置了“成规律的捐款钱数”这样的虚假情景.
1. 难度
问题的难度应该符合《课程标准》的要求,符合测试性质和教学实际要求,针对学生学习特点,充分发挥测评的价值.
例 已知二次函数y=ax2+bx+c.
(1) 若a=2,c=-3,且二次函数的图象经过点(-1,-2),求b的值.
(2) 若a=2,b+c=-2,b>c,且二次函数的图象经过点(p,-2),求证b≥0.
(3) 若a+b+c=0,a>b>c,且二次函数的图象经过点(q,-a),试问自变量x=q+4时,二次函数y=ax2+bx+c所对应的函数值y是否大于0.请证明你的结论.
点评:本题的第(2)问,特别是第(3)问,以近乎高中形式化表达的方式来设计试题,对代数运算能力要求较高,明显高于初中大纲和《课程标准》的要求,明显偏难.
例 在直角梯形ABCD中,AB∥DC,∠B=90°,P为BC上一点.
(1) 若∠APD=90°,找出其中两个相似的三角形,并加以证明;
(2) 若AB=9,DC=4,P为BC的中点,∠APD=90°,求BC的长;
(3) 在(2)的条件下,试探求以AD为直径的圆与BC所在直线的位置关系,并予以证明.
点评:本题是某实验区试卷的压轴题,但考查的内容比较单一,涉及的数学思想方法少,思维方式比较单一,综合性思维水平要求不高,以这样的题作为压轴题,反映出整卷的考查水平与《课程标准》要求的考查标准有一定的差距,这对于推进新课程实施是不利的.当然,这显然不是说压轴题就应该在难度上大做文章.不少地方的压轴题都是代数函数方程或几何的综合性问题,其中有些应用高中知识常规方法容易解决而利用初中知识技巧性很高,这样的考查方向,也是对初中教学是不利的.
2. 区分度
填空题运算过程太复杂、选择题难度过大,解答题超越学习范围和能力等,都不利于区分。
例 已知:如图,在正方形ABCD外取一点E,连接AE,BE,DE.过点作的垂线交ED于点P.
若, PB=.下列结论:
①△≌△;②点到直线的距离为;③;④;⑤.其中正确结论的序号是( )
A.①③④ B.①②⑤
C.③④⑤ D.①③⑤
点评:本题为选择题,但是每个选择支的判断几乎都要经过大量的推理和计算,本身就属于“小题大做”,同时,学生的思维过程也很难通过选择题的形式准确、全面的反映出来,并不利于区分.
3. 效度
3.1 采用陈题降低试题的效度
例 题目1:某商场为缓解我市“停车难”问题,拟建造地下停车库,图6是该地下停车库坡道入口的设计示意图,其中, AB⊥BD,∠BAD=18o,C在BD上,BC=0.5m.根据规定,地下停车库坡道入口上方要张贴限高标志,以便告知驾驶员所驾车辆能否安全驶入.小明认为CD的长就是所限制的高度,而小亮认为应该以CE的长作为限制的高度.小明和小亮谁说的对?请你判断并计算出正确的结果.(结果精确到0.1m)
题目2:为缓解“停车难”问题,某单位拟建造地下停车库,建筑设计师提供了该地下停车库的设计示意图.按规定,地下停车库坡道口上方要张贴限高标志,以便告知停车人车辆能否安全驶入。(其中AB=9m,BC=0.5m)为标明限高,请你根据该图计算CE.(精确到0.1m)
【2005年江苏省苏州市中考试题】
点评:题目1的情境与题目2(2005年苏州市中考题)的情境基本相同,未对该陈题作实质性修改,对是否做过此类题考生存在不公平性,影响了试卷有效考查学生的真实水平的目的,降低了试卷的效度.
3.2 内容超标降低试题的效度
例 如图,直线与x轴、y轴分别交于A、B两点.
(1)将直线AB绕原点O沿逆时针方向旋转90°得到直线A1B1.请画出直线A1B1,此时直线AB与A1B1的位置关系为 (填“平行”或“垂直”);
(2)设(1)中的直线AB的函数表达式为y1=k1x+b1,直线A1B1的函数表达式为y2=k2x+b2,则k1·k2= .
点评:本题第(2)问考查两条互相垂直的直线的斜率关系,该内容是高中解析几何的范围,虽然初中学生可以利用待定系数法分别求出k1、k2得到结果,但是非常繁琐.另外,本题以填空题的形式难以展现学生的思维过程,不能准确考查学生的数学学业的真实水平.
例 《几何原本》的诞生,标志着几何学已成为一个有着严密理论系统和科学方法的学科,它奠定了现代数学的基础. 它是下列哪位数学家的著作
(A)欧几里得 (B)杨辉 (C)笛卡尔 (D)刘徽
点评:本题考查了数学史知识,在课程标准(实验稿)中没有对这一部分做具体的教学内容要求,设置这种纯记忆著作者的试题,失去了对学生数学学业水平与能力的考查效度.
3.3题型运用(设置)不当降低试题的效度
例 如图,以A点为圆心,AB长为半径画弧,交数轴于点M,则点M所表示的数是( ).
A. B.
C. D.
例 关于的方程有实数根,则满足
A. B.
C. D.
点评:本题意图考查学生对“方程有实数根”的理解,“方程有实数根”的理解要从一元一次方程和一元二次方程两种情况来考虑,但本题若认识到a可以等于5,则直接就可以确定为答案A,没有体现考查意图,若将本题设计为填空,则效度会较高.
展开阅读全文