资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,第二章 教育信息熵,1.了解信息熵的基本含义及性质,2.掌握多个概率系统的信息熵,3.掌握测试过程中的信息量问题,4.掌握教学过程中的信息量问题,5.掌握教育中质的数据信息量问题,6.掌握CAI课件中信息熵的应用,.,第一节 熵的概述,2.1.1信息量的表示,1。信息量与不确定性的关系,2。不确定性的大小与事件出现的概率,P,i,的关系,a。单调减函数,b。可加性,.,第一节 熵的概述,2.1.1信息量的表示,A,B,C,D,E,信息量的表示:,单位:,以2为底的单位为比特 (bit),e奈特 (nit),10.迪特 (dit),1 bit=0.693 nat,1 nat=1.443 bit,1 nat=0.4343 nat,1 dit=2.303 nat,.,2.1.2信息熵,每个状态平均含有的不确定性,X:x,1,x,2,x,n,P(X):P(x,1,),P(x,2,),P(x,n,),.,设某一系统具有四种状态A1、A2、A3、A4,其产生的概率分别为:,、,该系统中任一状态产生是所给予的平均信息量为:,H=1.75(bit),若概率系统为连续系统,其概率分布为p(x),该系统的熵由下式表示:,.,2.1.3熵的意义,熵的大小可用于表示概率系统的不确定程度。,例1 设某一概率系统中,每一事件产生的概率分布为:(1,0,0),例2 设某一概率系统中,其概率分布是均匀的,它表示系统中每一事件产生的概率相等。,例:两个中间状态 设概率系统A、B得分布为:,试比较它们哪一个系统的不确定程度大。,.,2.1.4信息熵的基本性质,1.单峰性,例 设某一系统包含两个事件A、B,其产生的概率分别为p和1-p。该系统的熵为,.,2.对称性例 某系统中n个事件的概率分布为,.,3.非负性,4.渐化性,5.展开性,例 设概率为 的事件可分解为q和r的两个事件,则有,例 设某一系统的概率分布为:,.,6.确定性,概率系统中,任一事件产生的概率为1,则其他事件产生的概率为0,这是一种确定的系统。对于这样的系统,有,.,第二节 相对熵与冗余度,2.2.1相对熵,.,第二节 相对熵与冗余度,2.2.1相对熵,.,2.2.2冗余度,相对信息熵,冗余度为:,香农,冗余度表示了由于每种字符出现的概率不同而使信息熵减少的程度,信息传递过程中的冗余度使得信息传递的效率降低,但这种冗余度也并非总是无意义的。,对信息的预测,信息的纠错,用处:,.,第三节 熵函数的展开,2.3.1联合熵,设有两道多重选择问题X、Y。,.,第三节 熵函数的展开,2.3.1联合熵,设有两道多重选择问题X、Y。,若,x,i,,,y,i,相互独立,则,二元联合熵,.,第三节 熵函数的展开,2.3.1联合熵,设有两道多重选择问题X、Y。问题X有r个预选答案,问题Y有c个预选答案。通过测试,学生对问题X选中第s个预选答案,对问题Y选中第t个预选答案的概率为 。这是一种同时的选择概率。,.,例 考虑m=2的情况,且假定联合概率分布如下,求其二玩联合熵,P(xiyi),y1,y2,y3,x1,1/20,7/20,1/10,x2,7/20,1/20,1/10,.,2.3.2条件熵,在事件s产生的情况下,另一种事件t产生的概率以条件概率,所表示。由此,可引入条件熵,,且有,条件熵与联合熵具有以下关系:,同样有,基于联合熵和条件熵。可定义互信息量,。X、Y的互信息量,为,可得到,.,第四节 测试问题的信息量,2.4.1测试问题信息熵的计算,(1)(1,0,0,0,0),(2)(0.5,0.125,0.125,0.125,0.125),(3)(0.5,0.5,0,0,0),(4)(0.2,0.2,0.2,0.2,0.2),H=0(bit),H=2(bit),H=1(bit),H=2.3(bit),.,2.4.2等价预选项数,三个五重选择问题,(a)的概率分布为(0.5,0.5,0,0,0),(b)的概率分布为(0.5,0.125,0.125,0.125,0.125),(c)的概率分布为(0.4,0.3,0.2,0.1,0.0),2,?,?,H=1(bit),H=2(bit),H=?(bit),H=1.857(bit),.,2.4.2等价预选项数,三个五重选择问题,(a)的概率分布为(0.5,0.5,0,0,0),(b)的概率分布为(0.5,0.125,0.125,0.125,0.125),(c)的概率分布为(0.4,0.3,0.2,0.1,0.0),2,H=1(bit),H=2(bit),H=1.857(bit),设某一多重选择题的应答分布实测值为,与之等价的预选项数为k,.,2.4.3对不确定程度的判断,从外观上看,12个小球完全相同,在这12各小球中,仅有一个小球的重量与其他小球不一样。请使用天平,能否在三次以内找出这个重量不同的小球,并且指明该小球比其他小球是重还是轻。,分析与求解:,比较12个小球,并判定轻、重,应是122种比较当中的一种。,不确定程度为,每使用一次天平,通过左边轻、右边轻或平衡的判断,不确定程度减少为,使用两次天平不确定程度减少为,使用三次天平不确定程度减少为,.,第五节 教学过程的信息量分析,2.5.1 分类系统,Flandrs分类系统(1968年)和VICS(Verbal Interaction CategorySystem),H=2.939bit,.,2.5.2类别总数与熵,.,2.5.3不同学科类别频度分布的比较,.,第六节 教育中质的数据信息量分析,1.交叉表的制作?2.互信息量的计算及使用?,2.6.1 交叉表,.,2.6.2互信息量,如何表示质的数据间的相关状态,.,0.3772(基于MDL规范化),圆圈内的数据为,0.1649(基于AIC规范化),,.,第七节 CAI课件中的信息熵,1.多重选择题信息熵的运算?2.课件评价的度量?3.学习状态的信息描述?,2.7.1 多重选择问题的信息熵,对多重选择问题应答分布的信息熵进行计算。,(1/2,1/2),H=1(bit),(1/2,1/4,1/4),H=1.5(bit),(1/2,1/4,1/8,1/8),H=1.75(bit),(1/4,1/4,1/4,1/4),H=2(bit),(2/5,1/5,1/5,1/10,1/10),H=2.12(bit),.,2.7.2课件评价,设某一问题学习者的应答分布为:(1/5,1/5,1/5,1/5,1/5),若某一问题的学习应答分布为(1,0,0,0,0),.,2.7.3学习状态的描述,设用于某一单元学习的CAI课件包含N个问题。根据CAI课件的安排,整个学习过程分为 K个阶段,用于第i阶段的学习问题共有M个。学生在第i个阶段的M个问题的学习中,给出正确、错误应答的概率分别为和,则在第i阶段回答问题所具有的信息熵为,.,
展开阅读全文