资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第九讲 教与学的评估,主要内容,什么是教学评价,如何进行教学测量与评价,第一节 什么教学评价,教学测量与评价,教学评价的分类,教学评价的作用,一、教学测量与评价,1,教育测量的含义与特点:,根据,某种标准和,一定的,操作程序,运用一定的测量工具,对教育现象进行数量化描述的过程,特点:,间接性和推断性,测量对象的模糊性和测量误差的不可避免性,测量工具的多样性,结果具有相对抽象性,2,教育评价的概念:,评价泛指,衡量、判断,人物或事物的,价值,教育评价即:,根据一定的,标准(教育目标的达成与否),运用,可行的方法(测量、非测量、系统收集资料信息的方法),对教育的,要素,、,过程,和,效果(教育计划、课程、学习结果、教育现象、教学活动、教育目标或程序),进行,价值评判的活动(为学生发展、教育决策等),3,测量与评价的关系,教育测量为教育评价提供客观的数据信息,是教育评价的基础,二者区别:,测量,:对事物数量特征的获得,强调数量化的方法与结果;,评价,:对教育现象客体的价值进行判断,强调定性与定量相结合的方法,测量,:客观性;,评价,:客观性与主观性的两种属性,测量,:任务是对事物的量的认识;,评价,:认识活动,人的意识对实践活动及其结果的综合反映,二、教学评价的分类,1,形成性评价和总结性评价,实施教学评价的时机,形成性评价:,指在教育活动进行过程中评价活动本身的效果,用以调节活动过程,保证教育目标实现而进行的价值判断。,总结性评价:,是指在某项教育活动告一段落时,对最终成果做出价值判断。,2,常模参照评价和标准参照评价,教学评价资料的处理方式,常模参照评价:,以学生所在团体的平均成绩为参照标准(常模),根据其在团体中的位置来报告评价结果。,标准参照评价:,基于某种特定的标准,评价学生对与教学密切关联的具体知识和技能的掌握程度。,3,标准化学绩测验和教师自编测验,从测验的来源看,标准化成就测验:由学科专家和测验编制专家按照一定标准和程序编制的测验。,教师自编测验:指教师根据教学需要自行设计与编制的、作为考查学生学习进步情况的测验。,能力倾向测验,成就测验,多因子能力倾向成套测验,单科成就测验,诊断性测验,成就测验组,常摸参照成就测验,标准参照成就测验,单科成就测验,诊断性测验,成就测验组,标准化测验的类型,一般智力测验,三、教学评价的作用,1.,教学评价的结果为教师检验与改进教学提供依据。,2.,教学评价的结果为学生在学习上的进步情况提供反馈,3.,教学评价的结果为学生家长了解子女在校学习情况提供参考。,四、测量与评价的有效性:效度,效度(,Validity,)是测量的有效程度。严格地说,效度是指一个测验或量表实际能测出其所要测量特性的程度。效度验证可分为:,1.,内容效度:测验题目对于应测内容与行为的代表性程度,在教学情境下就是测验题目能体现教学目标与教材要求的程度。一般使用逻辑分析法、克龙巴赫的统计分析方法和再测法进行分析。,2.,构想效度是指测验能够测量到理论上的构想和特质的程度。估计方法包括对测验本身的分析、测验间的相互比较和效标效度的相关。,3.,效标效度是指一个测验对于处于特定情境中的个体行为进行预测时的有效性。估计方法是计算测验分数与效标测量的相关系数。,五、教育测量与评价的信度,信度就是指测量数据和结论的可靠性程度,即多次测验的结果要保持一致,否则便不可信。通常用一种相关系数(即两个数之间的比例关系)来表示,相关系数越大,信度则越高。,C,C C,B,D,B,B,D,D,A,A A,C,C C,B,D,B,B,D,D,A,A A,信度,(Reliability):,测验是否精准,(Precision),效度,(Validity):,测验是否正确,(Accuracy),A,:,精准又正确;,B,:,不精准但正确;,C,:,精准但不正确;,D,:,不精准也不正确,七、项目的难度和区分度,项目的难度是被试完成项目任务时所遇到的困难程度。它通常用答对该项目的人数占应试总人数的百分比来表示。百分比越高,难度越小。,项目的区分度就是题目区别被试水平的能力的程度,常记为,D,,常用“高低分组法”表示,D,。被试,D,值越高,题目越是有效。,第二节 教学测量与评价的方法,标准化成就测验,教师自编测验,非测验的评价技术,教学评价结果的处理与报告,如何正确看待标准化成就测验?,测验对学生的影响,产生焦虑,把学生分类,并贴上标签,损害了学生的自我概念,预先期望直接影响自我实现,如果没有测验,将会,对个人学习努力实施奖赏会更加困难,根据能力和品德得到的教育机会将更少,更多的只能依靠家族血统及其影响,社会阶级屏障更加不可逾越,缺少可靠证据,难以决定课程和方法等重要问题,谁该接受批评?是测验,还是测验的使用者?,2.2,教师自编测验,含义,教师根据具体的教学目标、教材内容和测验目的,自己编制的测验,是为特定的教学服务的。,特点,教师自编测验用于测量学生的学习状况,而标准化成就测验用于判断学生与常模相比时所处的水平,2.2,教师自编测验,基本步骤,1.,确定测量目的,2.,编制测验细目表,3.,选择合适的题目,4.,设计有关的题目,5.,汇编试题,6.,实施测验,7.,评定测验,8.,使用结果,目标:改善学习和教学,2,编制测验的细目表,列出教学目标清单,按照陈述教学目标的方法,描述某单元的一般性教学目标及具体的学习成果,例:天气单元的教学目标,1,)了解基本术语,写出每一个术语的定义、识别代表每种天气的术语、确定最适合描述给定天气的术语,2,)了解天气符号,将每一种符号与它所代表的天气相对应、画出每种天气的符号,3,)了解具体事实,4,)理解天气形成的影响因素,5,)解释气象图,6,)测量相关的天气特性,2,编制测验的细目表,列出教学内容要点,A.,气压,1.,测量和报告气压;,2.,影响气压的因素;,3.,气压与天气改变的关系,B.,气温,1.,测量并报告气温;,2.,影响气温的因素;,3.,气温与天气形成的关系,C.,湿度和降水量,1.,测量并报告湿度;,2.,影响湿度的因素;,3.,降水的形式;,4.,测量并报告降水量,D.,风,1.,测量风速和风向;,2.,影响风速和风向的因素;,3.,说出代表风速和风向的符号,E.,云,2,编制测验的细目表,填写双向细目表(排列各部分所占的比例),准备一个含有教学目标与教学内容两个维度的双向细目表,并具体说明测验题目和评价任务样本的特点,纵向设计,各个知识在整个测验的知识范围内的相对地位和重要程度(确定各部分知识所占的比重),横向设计,了解各组知识在不同学习水平中的具体要求,从而决定相应的比例,汇总与调整,2,编制测验的细目表,目标,知道,理解,解释,内容,基本术语,天气符号,具体实施,影响天气形成因素,气象图,题目总数,题目比例,气压,1,1,1,3,3,9,15,风,1,1,1,10,2,15,25,温度,1,1,1,4,2,9,15,湿度和降水量,1,1,1,7,5,15,25,云,2,2,2,6,12,20,题目总数,6,6,6,30,12,60,题目百分比,10,10,10,50,20,100,2,编制测验的细目表,例如,教学目标,内容范围,程序性技能,理解,应用,总体百分数,单分数,5,10,5,20,带分数,5,15,10,30,十进制,5,10,5,20,十进制与分数的关系,10,10,10,30,总体百分数,25,45,30,100,2,编制测验的细目表,使用单向归类系统(阅读理解技能),阅读技能,题目数,识别文章中的细节,10,概括出文章的中心思想,10,判断文中事件出现的先后顺序,10,辨别文中所表述的关系,10,对,文中内容进行推论,10,总体百分数,50,3,选择合适的题目,准备测验题目时应考虑的问题,题目与预期的成果匹配,知识性学习成果:,的名字(位置、特征、功能)是什么?,理解性学习成果:,的原因是什么?,和,的关系是什么?哪一个是,的例子?哪一个最恰当地概括了,?,应用性学习成果:对于,来说哪一种方法最好?设计,的步骤是什么?下面哪一项指明了,的正确应用?下面哪一种解决方法对,来说是正确的?,获得题目的代表性样本,减少妨碍表现的无关因素,避免客观题中的无意线索,3,选择合适的题目,客观题,是非题,匹配题,选择题,主观题,部分限制型,简答题、填空(图)题、画图题、改错题,自由应答型,论述题、作文题、实验题、翻译题、计算题、作图题,3,选择合适的题目,简答题与填空题,1.,基本特点,根据呈现的问题,学生以一个词、短语、数字或者符号做出回答,适合测量各种相对简单的学习结果,2.,优点和局限性,优点:,容易编制,学生必须提供答案,减少了通过猜测获得答案的可能,局限性:,不适合测量复杂的学习结果,记分的难度,3,选择合适的题目,一、简答题与填空题,3.,编制简答题的一些建议,题目措辞时,应使要求的答案简洁具体,以其他动物的肉为食的动物是(),以其他动物的肉为食的动物属于()类,不要直接引用教材上的陈述作为简答题的基础,如果答案要以数字单位的形式表示,请标明要求的答案类型,给题目答案留的空白长度应该一样且都放在题目的右端,使用填空题时,需要学生填的空不要太多,3,选择合适的题目,是非题,1.,基本特点,用于测量事实性陈述、术语定义以及定律表述是否正确的辨认能力,2.,优点和局限性,优点:,效率高,局限性:,测量的学习结果种类有限(大多为知识领域),具有猜测性,3,选择合适的题目,是非题,3.,编制是非题的一些建议,要判断正误,应避免过于宽泛的判断,美国总统是选举产生的(),美国总统通常是选举产生的(),避免琐碎的陈述,避免使用否定句式,尤其是双重否定,避免使用长的复杂句型,避免在一个判断中包含两个观点,避免正确判断和错误判断地数量不合比率,选择题,1.,基本特点,由一个问题和一列选项组成,学生答题方式是选择正确的或者最佳的选项,错误的选项叫干扰项,干扰那些知识掌握不牢固的学生答题,2.,优点和局限性,优点:,较强的灵活性,测量多种知识和理解水平的学习内容,在测量各种类型的学业成绩方面有广泛的应用性,局限性:,难以找到足够多的似是而非的干扰项,选择题,3.,设计选择题的建议,题干本身具有意义并以一个确定的问题呈现,南美()改:大多数居住在南美的殖民者来自于(),题干应包括尽可能多的内容,但与题干无关的材料应该删去,大多数南美国家的居民是来自西班牙的殖民者。你将如何解释大量的西班牙殖民者定居在那里呢?改:西班牙殖民者定居在南美许多国家是为了寻找,一般不使用否定式的题干,下面哪个州不位于回归线以北?改:下面哪个州位于回归线以南,全部的选项都应与题干在语法上保持一致,3,选择合适的题目,选择题,3.,设计选择题的建议,所有的干扰项都应该是似是而非的,选择题中应该有多少个选项?,编制具有迷惑性的干扰项的方法,使用学生最常见的错误,使用课本上的语言或者其他具有真理性的措辞,使用那些由于学生误解或者是粗心大意而造成的错误答案,使干扰项与正确答案在长度、词汇、句子结构和内容的复杂程度上相似,3,选择合适的题目,选择题,3.,设计选择题的建议,避免使题干与正确答案之间存在语言联系,正确答案出现在选项中的位置应该大致平均而且随机,少用诸如,“,以上都不对,”,、,“,以上都对,”,的选项,3,选择合适的题目,主观题,1.,基本特点,被试在解答问题时,可以自由组织答案,评分者按照给分标准,借助主观判断确定被试得分,2.,优点和局限性,优点:,可以测量高层次的学习水平,答案能够反映考生解答问题的思维过程和回答问题的正确程度,可以促使学生养成注意学习内容和知识之间的内在联系的习惯,局限性:,试卷中试题数量少,考试覆盖面小,试题取样不广泛,难以有效地代表所测内容,影响考试信度和效度,评分不够客观,阅卷时费时费力,3,选择合适的题目,主观题,3.,编制主观题的一些建议,加强试题的综合性,以测量较高层次的学习水平,要给考生提供展显才智的条件,突出重点内容,要出,“,活题,”,不脱离考试的范围和要求,不出偏题、怪题,编制题目的同时,制定明细合理的评分标准,7,评定测验,信度,测验的可靠性,即多次测验分数的稳定、一致的程度。,效度,测验对测量目标的精确性和真实性。,区分度,题目对所测量属性或品质的区分程度或鉴别能力,2.3,非测验的评价技术,档案袋分析,按照一定标准收集起来的学生认知活动的成果,并形成某种判断和决策的过程。,观察,行为检查单,轶事记录,等级评价量表,情感评价,档案袋分析案例,任务,1:,请你在生活中发现一个问题或领域,并在互联网上寻找资料,用我们所学的数学知识来表达它或解决问题,5,计划非常严密,假设是清晰的,所有的预测都明确呈现出来,4,对大多数问题有精确的计划和预期,假设大体是清楚的,大多数预测是清楚,3,有一定的计划,陈述了假设但相当模糊,试图作出清晰的预测,2,几乎没有计划,假设不完全且不清晰,只作出了一些模糊的预测,1,没有计划,没有假设,没有预测结果,档案袋分析的,评价指标,back,喜欢向权威挑战,有较强的好奇心,总想寻根究底,弄清事物的来龙去脉,喜欢精细地观察事物,非常希望把自己发现的东西告诉别人,能从乍看起来互不相干的事物中找出联系,有自己独特的实验方法和发现问题的方法,喜欢预测结果,并能努力地去证明这一预测的正确性,习惯于自己决定学习和研究的课题,喜欢寻找多种解决问题的可能性,样例:学生创造性表现的行为检查单,学生是否能够对他人的优秀表现表示欣赏(),学生是否愿意倾听他人的意见和建议 (),学生能够独立判断做出决定么 (),学生愿意向他人提供帮助 (),样例:记录学生合作技能的行为检查单,back,内容,等级,形式,等级,论点新颖,语音洪亮,论据充分,与听众有目光交流,过程严谨,态度沉稳,逻辑清楚,应对得当,资料翔实,详略得当,时间控制合理,直观生动,样例:对学生的成果报告进行评价,back,个人成绩,小组成绩,0 1 2 3,0 1 2 3,动机,责任感,主动性,合作精神,意志和坚持,样例:对学生情感态度方面的评价,back,2.4,教学评价结果的处理与报告,评分,合格与不合格,其他报告方式,谢谢各位老师!祝工作愉快,万事如意!,李琼,13691341366,qiongli,北京师范大学教育学部,
展开阅读全文