1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,判别分析,Discriminant Analysis,判别分析的相关例子(,1,),在经济中的应用:中小企业的破产模型,为了研究中小企业的破产模型,选定,4,个经济指标:,X1,总负债率(现金收益,/,总负债),X2,收益性指标(纯收入,/,总财产),X3,短期支付能力(流动资产,/,流动负债),X4,生产效率性指标(流动资产,/,纯销售额),对,17,个破产企业(,1,类)和,21,个正常运行企业(,2,类)进行了调查,得关于上述四个指标的资料,现有,8,个未知类型的企业的四个经济指标的数据,判断其属于
2、破产企业一类还是正常运行企业一类?,判别分析的相关例子(,2,),在天气预报中的应用,根据经验,下列两个因素是预报明天下雨与不下雨的重要因素:,今天与昨天的,湿度差,x,1,今天的,压温差,(气压与温度之差),x,2,今测得,x,1,与,x,2,,应预报明天下雨还是预报明天不下雨?,判别分析的其他例子,预测新产品的成功或失败,判断一个人是否患有某种疾病,按职业兴趣对学生分组,确定某人信用风险的种类,前 言,判别分析是一种进行统计判别和分组的技术手段。,判别分析与聚类分析的不同之处在于判别分析带有,“,预测,”,意义。,判别分析的目的,就是从现有已知类别的样本数据中训练出一个,判别函数,,以后再
3、有未知类别的数据进入,就,利用建立的函数来判断其类别(判别规则),。,各类判别问题的前提有所不同,进行划分或寻找,判别函数的准则,也可以不同,判别分析的方法有:,距离判别,费歇判别,贝叶斯判别,等。,判别分析与聚类分析的联系与区别,都要求对样本进行分类,但分析的内容和要求不一样,聚类分析事先并不知道存在什么类别,完全按照反映对象特征的数据把对象进行分类,判别分析是在事先有了某种分类标准之后,判定一个新的研究对象应该归属到哪一类别,某些思想和方法相同,两者往往结合起来使用,当分类不清楚时,可以先用聚类分析对原有样品进行分类,然后再用判别分析建立判别函数以对新样品进行归类,例,8.1,根据经验,今
4、天与昨天的,湿度差,x,1,及今天的,压温差,(气压与温度之差),x,2,是预报明天下雨或不下雨的两个重要因素。,今测得,x,1,=8.1,,,x,2,=2.0,,试问应预报明天下雨还是预报明天不下雨?,例,8.1,X1,20,10,0,-10,-20,X2,20,10,0,-10,-20,新样本点,U(x,1,x,2,),D2-,非雨区,D1-,雨区,这是一个最简单的判别分析问题,由,判别因子,x,1,和,x,2,:,将二维样本空间划分成两个互不相交的区域,D,1,和,D,2,,根据新样品判别因子的观察值,若它落在区域,D,i,,就判该样品属于,i,类,构造一个,判别函数,u,(,x,1,x
5、2,),,然后根据新样品的函数值判断其属于哪一类,数学模型(概率论的角度),模型:,G,个总体:,1,2,g,G,其中,g,是,p,维随机变量,对应的分布函数,F,g,(,x,1,x,2,x,p,),g,=1,2,G,(,x,1,x,2,x,p,),是表征总体特性的,p,维随机变量的取值,在判别分析中称之为,判别因子。,现有一个新的样本点,x,=(,x,1,x,2,x,p,),要判断此样本点是属于哪一个总体的?,假如能掌握每一个总体,g,的,分布规律,或某些,数字特征,,则这类问题的解决是不难的,实际处理方法,在每一个总体中,取一个容量为,n,g,的样本,(,g,=,1,2,G,),,,然后
6、根据,已知类别的,样本,所提供的,信息,,,判断,新的样本点属于哪一类,一般判别分析的模型,需要判别的类型有,G,类,,起,判别作用的因子有,p,个,:,(,x,1,x,2,x,p,),从第,g,类中取得,n,g,个样品,其第,i,个样品的,p,个判别因子的取值为:,x,i,(,g,),=(,x,i,1,(,g,),x,i,2,(,g,),x,ip,(,g,),),对,p,维空间作出一个,划分:,D,1,D,2,D,G,互不相交,或者构造一个,判别函数:,u,(,x,1,x,2,x,p,),以,u,(,x,1,x,2,x,p,),作为新样品所属类型的判断,常用的判别方法,距离判别,Fishe
7、r,判别,Bayes,判别,逐步判别,距离判别,距离判别,判别准则,根据各类的,n,g,个样本,求出每类的中心坐标,再根据新样品离开每个类中心的距离远近作出它属于哪一类的判断,(1),两类距离判别:,设有两个总体:,1,2,d(,x,g,),的计算,选用,马氏距离,d,2,(,x,g,)=(,x,-,g,),-1,(,x,-,g,),此距离表示,x,与随机向量,g,(,x,到总体,g,的距离)的距离,即,x,到,g,的均值,g,的,马氏距离。,判别规则,判别函数:,为线性判别函数,其中,a,称为,判别系数,利用判别函数进行判别,判别规则为:,若,u,(,x,),0,,则判,x,1,若,u,(,
8、x,),0,,则判,x,2,利用,u,(,x,),将样本空间,R,P,进行,划分,划 分,当,1,、,2,、,未知,(2),两类距离判别:,1,2,*,p,1,时,可按多类判别中,G=2,时的特殊情况处理,注意要点(,1,),1,2,2,只有当两个总体的均值有显著差异时判别分析才有意义,注意要点(,2,),为减少误判的可能性,有时可划定一个待判区域,b,c,多类距离判别:,设有多个总体:,1,2,G,判别规则:,若,d(,x,g,)=min d(,x,i,),则判,x,g,选用马氏距离,d,2,(,x,g,)=(,x,-,g,),-1,(,x,-,g,),当,g,、,g,(g=1,2,G),未
9、知,多类距离判别:,1,=,2,=,=,G,距离判别的特点,距离判别只要求知道总体的数字特征,不涉及总体的分布函数,当参数和协方差未知时,就用样本的均值和协方差矩阵来估计。,距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失。,Fisher,判别,Fisher,判别,Fisher,判别是根据,方差分析,的思想建立起来的,即按,类内方差尽量小,类间方差尽量大,的准则来求,判别函数,的。,Fisher,判别的基本思想是,投影,,即将原来在,p,维空间的,自变量组合投影到,维度较低的,D,维空间去,然后在,D,维空间中再进行分类。,投影的原则,是使得每一类内的
10、离差尽可能小,而不同类间投影的离差尽可能大。,对总体的分布不做任何要求,Fisher,判别的图示,两个总体的,Fisher,判别法:旋转坐标轴至总体单位尽可能分开的方向,此时分类变量被简化为一个,设有,G,个总体:,1,2,G,对任给一个样品,x,,考虑一个,判别函数,u,(,x,),,记,Fisher,判别准则:,寻找,u,(,x,),:,使类内偏差平方和,W,0,最小,,类间偏差平方和,B,0,最大,即 要找,u,(,x,),,使,达到,最大,判别规则:,对新样品,x,若,u,(,x,)-,u,i,=min,u,(,x,)-,u,g,则判,x,i,u,(,x,),可以是,x,的任意函数,通
11、常只考虑线性判别函数:,u,(,x,)=,a,/,x,=,a,1,x,1,+,a,2,x,2,+,a,p,x,p,重点,转为线性判别函数的,系数,a,的,确定,u,(,x,),的线性函数,亦为,Fisher,准则下的,判别函数,线性判别函数的系数,a,确定,一般地,总体的,,未知,可以用样本来估计,将,B,0,、,W,0,分别改用样本的判别函数值的组间和组内离差平方和表示:,在,a,W,a,=1,的条件下,求,a,,使,I,达到最大,根据线性代数知识,,a,为,B,-,W,=0,的最大特征根所对应的,特征向量,,,为最大特征根。,两类,Fisher,判别,假设建立的判别函数为,u,(,x,)=
12、a,x,=,a,1,x,1,+,a,2,x,2,+,a,p,x,p,假设有两个总体,1,、,2,,分别从两个总体中抽取,n,1,和,n,2,个样品,每个样品观测,p,个指标,将属于不同总体的样品观测值代入判别函数中,分别对上面两式左右相加,再除以样品个数,可得两个总体的重心,:,最佳的线性判别函数应该是:两个重心的距离越大越好,两个组内的离差平方和越小越好。,综上,也就是要求,越大越好,组间离差,平方和,组内离差,平方和,利用微积分求极值的必要条件可求出使,I,达到最大值的,a,1,a,2,a,p,.,当然,也可以限定在,F,=1,的条件下,求出使,I,达到最大值的,a,1,a,2,a,p,
13、定义临界值:,不妨假设,如果由原始数据求得判别函数得分为,u,0,,对与一个样品代入判别函数中,若,u,0,u,*,,则判给第一类,否则判给第二类。,两类,Fisher,判别分析步骤,建立判别函数(关键求判别系数),计算判别临界值,根据判别准则对新样品判别分类,检验判别效果,即检验两个总体的均值向量是否相等,因为判别分析是假设两组样品取自不同总体,如果两个总体的均值向量在统计上差异不显著,作判别分析的意义就不大。,判别效果的检验,检验的前提,要求两个总体协方差阵相同且总体服从正态分布,检验的假设形式,检验统计量,检验的决策规则,给定检验水平,,查,F,分布表,确定临界值,F,。若,F,F,,则
14、H,0,被否定,认为判别有效;否则认为判别无效。,多个总体的,Fisher,判别法,Fisher,判别法实际上是致力于寻找一个或几个最能反映组和组之间差异的投影方向,即寻找线性判别函数:,设有,k,个总体,1,2,k,,分别有均值向量,1,2,,,k,和协方差阵,1,2,k,分别各总体中得到样品:,如果组数,k,太大,讨论的指标太多,则一个判别函数是不够的,这时需要寻找第二个,甚至第三个线性判别函数,设需要,m,(,mk,),个。,假设,a,W,a,=1,的条件下,,B,-,W,=0,的各特征根依次为:,各特征根对应的特征向量则分别构成第一、二,,m,线性判别函数的系数。,关于需要几个判别函
15、数的问题,需要累计判别效率达到,85,以上,即,判别准则,以,m,个线性判别函数得到的函数值为新的变量,再进行距离判别。,设,u,i,(,x,),为第,i,(,i=,1,2,m,),个线性判别函数,贝叶斯(,Bayes,)判别,Bayes,统计思想,假定对研究对象已有一定的认识,而这种认识常常用,先验概率分布,描述;,然后取得一个样本,用样本提供的信息再修正已有的认识,从而可以得到,后验概率分布,;,各种统计推断都通过,后验概率分布,进行。,最大后验准则,办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为,0.5,。坏人总是要做坏事,好人总是
16、做好事,偶尔也会做一件坏事,一般好人做好事的概率为,0.9,,坏人做好事的概率为,0.2,,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种,人?,Bayes,判别的,基本思想,是认为所有,G,个类别都是空间中互斥的子域,每个观测都是空间中的一个点。在考虑,先验概率,的前提下,利用,Bayes,公式按照一定准则,构造一个判别函数,,,分别计算该样品落入各个子域的概率,,所有,概率中最大,的一类就被认为是该样品所属的类别。,Bayes,判别准则:,使错判造成的损失为最小,Bayes,判别,错判损失如何定义?,设有,G,个总体:,1,2,g,G,其中,g,的,p,维分布密度函数
17、g,f,g,(,x,1,x,2,x,p,),f,g,(,x,),g=1,2,G,设,D,1,D,2,D,G,是,p,维空间,R,p,的一个划分:,D,1,D,2,D,G,互不相容,D,1,D,2,D,G,=R,p,对新的样品,x,的判别规则,:,若,x,D,g,,则判,x,g,g=1,2,G,划 分,损失函数,以,L,(,h,g,),表示样品来自第,g,个总体,而被错判为第,h,个总体所造成的损失,h,=,g,h,g,错判概率,发生错判的概率,b,c,g,h,先验概率,第,g,个总体出现的先验概率为,q,g,,,g=1,2,G,平均损失,利用损失函数、错判概率、先验概率,可以计算,:,通过划
18、分,D,1,D,2,D,G,,,按判别规则进行判别而产生的平均损失,Bayes,解,所谓,Bayes,判别法,:,就是要选择,D,1,D,2,D,G,,使,平均损失,I(D,1,D,2,D,G,),达到最小,,,常称此解为,Bayes,解,最小,Bayes,解的简化,引入,E,h,(,x,),要求,Bayes,解,,只要求得,使,E,h,(,x,),为最小的,h,值,取定样品,x,下,,使,E,h,(,x,),为最小的,Bayes,解,,,也就是使,后验平均损失最小的,Bayes,解,L,(,h,g,),的,简化,各种错判的损失一样,都定义为,1,E,h,(,x,),的简化,求,E,h,(,x
19、),的最小值等价于,求,q,h,f,h,(,x,),的最大值,相当于求后验概率的最大值,Bayes,判别规则,若,q,h,f,h,(,x,)=max,q,g,f,g,(,x,),,,则,:,判,x,h,h,=1,2,G,两类判别,假定,g,N,p,(,g,),g=1,2,,,对新样品,x,:,若,q,1,f,1,(,x,),q,2,f,2,(,x,),,则,:,判,x,1,若,q,1,f,1,(,x,),q,2,f,2,(,x,),,则,:,判,x,2,若,q,1,f,1,(,x,)=,q,2,f,2,(,x,),,则,:,任 判,等价于,若令,又,等价于,多类判别,假定,g,N,p,(,g
20、),g=1,2,G,两边取对数,得判别函数,当,g,未知时,取样本作估计,则判别函数为:,多类判别规则,若,u,h,(,x,)=max,u,g,(,x,),,,则判,x,h,h,=1,2,G,先验概率的常用取法,1.,先验概率取样品出现的频率:,q,g,=,n,g,n,g=1,2,G,2.,认为总体以等概率出现,即,q,g,=1,G,g=1,2,G,距离判别、,Fisher,判别与,Bayes,判别,当总体为等协方差的正态分布,且先验概率,q,g,相等时,,Bayes,判别即为距离判别,在具有等协方差的两个正态总体的判别问题中,,Bayes,判别函数也是,Fisher,判别函数,逐步判别,变
21、量的选择和逐步判别,变量的选择是判别分析中的一个重要的问题,变量选择是否恰当,是判别分析效果优劣的关键。,如果在某个判别问题中,将起最重要的变量忽略了,相应的判别函数的效果一定不好。,如果判别变量个数太多,计算量必然大,会影响估计的精度。特别当引入了一些判别能力不强的变量时,还会严重地影响判别的效果。,逐步判别的步骤(,1,),第一步:通过计算单变量的,统计量,(组内离差平方和与总离差平方和的比),,逐步选择判别变量,统计量,最小者,首先进入模型。,逐步判别的步骤(,2,),第二步:分别计算未被选中的其它变量与选中变量,x,1,的,统计量,统计量,1,i,的值,最小者,与,x,1,搭配进入模型
22、逐步判别的步骤(,3,),第三步:类推假设已经有,q,1,个变量进入了模型,要考虑较早选入模型的变量的重要性是否有较大的变化,应及时将其从模型中,剔除,。其原则与引入相同。但删除统计量,的值,最大,者。,第四步:进行判别分析。,判别分析的主要程序,1,.,选择变量,和判别分析的目的密切相关,反映要判类变量的特征,在不同研究对象上的值有明显的差异,2,.,确定分析样本和验证样本,将样本分成两部分,一部分用于确定判别函数,另一部分用于检查判别的效果。如果样本量很大,可将样本平均地或随机地分成两部分,判别分析的主要程序,3.,用逐步判别法筛选变量,在第一步所选的变量可能在类间无差异,应该将对判别
23、分析无贡献的变量剔除,4.,估计判别函数,选择某种方法建立判别规则,有距离判别、贝叶斯判别和费歇(,Fisher,)判别法。,判别分析的主要程序,5.,检查判别的效果,计算错判比率和正确判定的比率。将判别函数用于验证样本,通过验证样本的错判比率和正确判定的比率来确定判别的效果。,所谓错判,就是把原来是第一类的样本判给了第二类。对于正确判定的比率应该达到多少才能接受,并没有严格的规则。,检查判别效果的方法,自身验证,将用来建立判别函数的各样品代入判别函数中,看看错判情况是否严重。自身验证效果好,并不能说明该函数用来判别外部数据的效果也好,实用价值不是很大。,样本二分法,将样本随机分为两部分:分析样本和验证样本,一般比例,2,:,1,,要求样本容量较大,判别函数不稳定,交互验证(,Cross validation,),在建立判别函数时依次去掉一例,然后用建立起的判别函数对该例进行判别,比较有效地避免异常点的干扰,






