高等教育从数据到结论人民大学吴喜之教授09判别分析.pptx

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,判别分析,判别,有一些昆虫的性别很难看出，只有通过解剖才能够判别；,但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量（这些用作度量的变量亦称为预测变量）得到一个标准，并且利用这个标准来判别其他未知性别的昆虫。,这样的判别虽然不能保证百分之百准确，但至少大部分判别都是对的，而且用不着杀死昆虫来进行判别了。,判别分析,(discriminant analysis),这就是本章要讲的是判别分析。,判别分析和前面的聚类分析有什么不同呢？,主要不同点就是，在聚类分析中一般人们事先并不知道或一定要明确应该分成几类，完全根据数据来确定。,而在判别分析中，至少有一个已经明确知道类别的“训练样本”，利用这个数据，就可以建立判别准则，并通过预测变量来为未知类别的观测值进行判别了。,判别分析例子,数据,disc.sav:,企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标（变量）进行评分。,这些指标包括：企业规模（,is,）、服务,(se),、雇员工资比例,(sa),、利润增长,(prr),、市场份额,(ms),、市场份额增长,(msr),、流动资金比例,(cp),、资金周转速度,(cs),等等。,另外，有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。,我们希望根据这些企业的上述变量的打分和它们已知的类别（三个类别之一：,group-1,代表上升，,group-2,代表稳定，,group-3,代表下降）找出一个分类标准，以对没有被该刊物分类的企业进行分类。,该数据有,90,个企业（,90,个观测值），其中,30,个属于上升型，,30,个属于稳定型，,30,个属于下降型。这个数据就是一个,“训练样本”,。,Disc.sav,数据,根据距离的判别（不用投影）,Disc.sav,数据有,8,个用来建立判别标准,(,或判别函数,),的（预测）变量，另一个（,group,）是类别。,因此每一个企业的打分在这,8,个变量所构成的,8,维空间中是一个点。这个数据有,90,个点，,由于已经知道所有点的类别了，所以可以求得每个类型的中心。这样只要定义了如何计算距离，就可以得到任何给定的点（企业）到这三个中心的三个距离。,显然，最简单的办法就是离哪个中心距离最近，就属于哪一类。通常使用的距离是所谓的,Mahalanobis,距离。用来比较到各个中心距离的数学函数称为判别函数,(discriminant function).,这种根据远近判别的方法，原理简单，直观易懂。,Fisher,判别法,(,先进行投影,),所谓,Fisher,判别法，就是一种先投影的方法。,考虑只有两个（预测）变量的判别分析问题。,假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图。,这里只有两种已知类型的训练样本。其中一类有,38,个点（用“,o”,表示），另一类有,44,个点（用“*”表示）。,按照原来的变量（横坐标和纵坐标），很难将这两种点分开。,于是就寻找一个方向，也就是图上的虚线方向，沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出，如果向其他方向投影，判别效果不会比这个好。,有了投影之后，再用前面讲到的距离远近的方法来得到判别准则。这种首先进行投影的判别方法就是,Fisher,判别法。,逐步判别法,(,仅仅是在前面的方法中加入变量选择的功能,),有时，一些变量对于判别并没有什么作用，为了得到对判别最合适的变量，可以使用逐步判别。也就是，一边判别，一边引进判别能力最强的变量，,这个过程可以有进有出。一个变量的判别能力的判断方法有很多种，主要利用各种检验，例如,Wilks Lambda,、,Raos V,、,The Squared Mahalanobis Distance,、,Smallest F ratio,或,The Sum of Unexplained Variations,等检验。其细节这里就不赘述了；这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。,Disc.sav,例子,利用,SPSS,软件的逐步判别法淘汰了不显著的流动资金比例,(cp),，还剩下七个变量。用,x,1,x,2,x,3,x,4,x,5,x,6,x,7,分别表示标准化后的变量,is,，,se,，,sa,，,prr,，,ms,，,msr,，,cs,，得到两个典则判别函数（,Canonical Discriminant Function Coefficients,）：,这两个函数实际上是由,Fisher,判别法得到的向两个方向的投影。这两个典则判别函数的系数是下面的,SPSS,输出得到的：,Disc.sav,例子,根据这两个函数，从任何一个观测值（每个观测值都有,7,个变量值）都可以算出两个数。把这两个数目当成该观测值的坐标，这样数据中的,150,个观测值就是二维平面上的,150,个点。它们的点图在下面图中。,Disc.sav,例子,从上图可以看出，第一个投影（相应于来自于第一个典则判别函数横坐标值）已经能够很好地分辨出三个企业类型了。这两个典则判别函数并不是平等的。其实一个函数就已经能够把这三类分清楚了。,SPSS,的一个输出就给出了这些判别函数（投影）的重要程度：,前面说过，投影的重要性是和特征值的贡献率有关。该表说明第一个函数的贡献率已经是,99%,了，而第二个只有,1%,。当然，二维图要容易看一些。投影之后，再根据各点的位置远近算出具体的判别公式（,SPSS,输出）：,Disc.sav,例子,具体的判别公式（,SPSS,输出），由一张分类函数表给出：,该表给出了三个线性分类函数的系数。把每个观测点带入三个函数，就可以得到分别代表三类的三个值，,哪个值最大，该点就属于相应的那一类。,当然，用不着自己去算，计算机软件的选项可以把这些训练数据的每一个点按照这里的分类法分到某一类。当然，我们一开始就知道这些训练数据的各个观测值的归属，但即使是这些训练样本的观测值（企业）按照这里推导出的分类函数来分类，也不一定全都能够正确划分。,Disc.sav,例子,下面就是对我们的训练样本的分类结果（,SPSS,）：,误判和正确判别率,从这个表来看，我们的分类能够,100%,地把训练数据的每一个观测值分到其本来的类。,该表分成两部分；上面一半（,Original,）是用从全部数据得到的判别函数来判断每一个点的结果（前面三行为判断结果的数目，而后三行为相应的百分比）。,下面一半（,Cross validated,）是对每一个观测值，都用缺少该观测的全部数据得到的判别函数来判断的结果。,这里的判别结果是,100%,判别正确，但一般并不一定。,Disc.sav,例子,如果就用这个数据，但不用所有的变量，而只用,4,个变量进行判别：企业规模（,is,）、服务,(se),、雇员工资比例,(sa),、资金周转速度,(cs),。结果的图形和判别的正确与否就不一样了。下图为两个典则判别函数导出的,150,个企业的二维点图。它不如前面的图那么容易分清楚了,原先的图,Disc.sav,例子,下面是基于,4,个变量时分类结果表：,这个表的结果是有,87,个点（,96.7%,）得到正确划分，有,3,个点被错误判别；其中第二类有两个被误判为第一类，有一个被误判为第三类。,判别分析要注意什么,？,训练样本中必须有所有要判别的类型，分类必须清楚，不能有混杂。,要选择好可能由于判别的预测变量。这是最重要的一步。当然，在应用中，选择的余地不见得有多大。,要注意数据是否有不寻常的点或者模式存在。还要看预测变量中是否有些不适宜的；这可以用单变量方差分析（,ANOVA,）和相关分析来验证。,判别分析是为了正确地分类，但同时也要注意使用尽可能少的预测变量来达到这个目的。使用较少的变量意味着节省资源和易于对结果进行解释。,判别分析要注意什么,？,在计算中需要看关于各个类的有关变量的均值是否显著不同的检验结果（在,SPSS,选项中选择,Wilks Lambda,、,Raos V,、,The Squared Mahalanobis Distance,或,The Sum of Unexplained Variations,等检验的计算机输出），以确定是否分类结果是仅仅由于随机因素。,此外成员的权数（,SPSS,用,prior probability,，即“先验概率”，和贝叶斯统计的先验概率有区别）需要考虑；一般来说，加权要按照各类观测值的多少，观测值少的就要按照比例多加权。,对于多个判别函数，要弄清各自的重要性。,注意训练样本的正确和错误分类率。研究被误分类的观测值，看是否可以找出原因。,SPSS,选项,打开,disc.sav,数据。然后点击,Analyze,Classify,Discriminant,，,把,group,放入,Grouping Variable,，再定义范围，即在,Define Range,输入,1,3,的范围。然后在,Independents,输入所有想用的变量；但如果要用逐步判别，则不选,Enter independents together,，而选择,Use stepwise method,，,在方法（,Method,）中选挑选变量的准则（检验方法；默认值为,Wilks Lambda,）。,为了输出,Fisher,分类函数的结果可以在,Statistics,中的,Function Coefficient,选,Fisher,和,Unstandardized,，在,Matrices,中选择输出所需要的相关阵；,还可以在,Classify,中的,Display,选,summary table,Leave-one-out classification,；注意在,Classify,选项中默认的,Prior Probability,为,All groups equal,表示所有的类都平等对待，而另一个选项为,Compute from group sizes,，即按照类的大小加权。,在,Plots,可选,Combined-groups,Territorial map,等。,判别分析,(Discriminant Analysis),和聚类分析的关系,判别分析和聚类分析都是分类,.,但判别分析是在已知对象有若干类型和一批已知样品的观测数据后的基础上根据某些准则建立判别式,.,而做聚类分析时类型并不知道,.,可以先聚类以得知类型,再进行判别,.,距离判别法,假设有两个总体,G,1,和,G,2,如果能够定义点,x,到它们的距离,D(x,G,1,),和,D(x,G,2,),则,如果,D(x,G,1,)D(x,G,2,),则,xG,1,如果,D(x,G,2,)0,即,D(x,G,1,)D(x,G,2,),则,xG,1,如果,W(x)D(x,G,2,),则,xG,2,如果,W(x)=0,即,D(x,G,1,)=D(x,G,2,),则待判,当,m,(1),m,(2),S,已知,时,令,a=,S,-1,(,m,(1),-,m,(2),)(a,1,a,p,),则,显然,W(x),为,x,1,x,p,的线性函数,称为线性判别函数,;a,称为判别系数,.,当,m,(1),m,(2),S,未知,时,可通过样本来估计,:,判别函数为,为来自,G,i,的样本为,(,i,=1,2),非线性判别函数,:,当,S,(1),S,(2),时,这是,x,的一个二次函数,按照距离最近原则,判别准则仍然为,如果,W(x)0,即,D(x,G,1,)D(x,G,2,),则,xG,1,如果,W(x)D(x,G,2,),则,xG,2,如果,W(x)=0,即,D(x,G,1,)=D(x,G,2,),则待判,多总体时的线性判别函数,:,当,S,(1),=,S,(k),=,S,时,记,相应的准则为,:,如果对一切,j,i,W,ij,(x)0,则,xG,i,如果有某一个,W,ij,(x)=0,则待判,非线性判别函数,:,当,S,(1),S,(k),不等时,相应的准则为,:,如果对一切,j,i,W,ij,(x)0,则,xG,i,如果有某一个,W,ij,(x)=0,则待判,.,当,m,(i),S,(i),未知,时,可通过样本来估计,费歇,(Fisher),判别法,并未要求总体分布类型,工作原理就是对原数据系统进行坐标变换,寻求能够将总体尽可能分开的方向,.,点,x,在以,a,为法方向的投影为,a,x,各组数据的投影为,将,G,m,组中数据投影的均值记为有,记,k,组数据投影的总均值为有,组间离差平方和为,:,这里,组内离差平方和为,:,这里,注,:L=|E|/|B+E|,为有,Wilks,分布的检验零假设,H,0,:,m,(1),=,m,(k),的似然比统计量,.Wilks,分布常用,c,2,分布近似,(Bartlett),希望寻找,a,使得,SSG,尽可能大而,SSE,尽可能小,即,记方程,|B-,l,E|=0,的全部特征根为,l,1,l,r,0,相应的特征向量为,v,1,v,r,.,D,(a),的大小可以估计判别函数,y,i,(x)=v,i,x(=a,x,),的效果,.,记,p,i,为判别能力,(,效率,),有,最大的值为方程,|B-,l,E|=0,的最大特征根,l,1,.,使,m,个判别函数的判别能力定义为,下面以两总体,(k=2),为例来发现阈值,.,它们的均值,的投影分别为,当总体方差相等时,阈值为,总体方差不等时,注意到的样本方差为,类似地,第二组数据投影的样本方差为,于是阈值,如,判别规则为,用,m,个线性判别函数,y,i,(x)=v,i,x,i=1,m,时,先将样本点在,L(v,i,v,m,),空间投影再按照,p1,情况的距离判别法来制定判别规则,.,判别能力为,于秀林书上介绍了对用一个和,m,个判别函数的加权和不加权方法,.,记,y(x)=vx,其在,G,i,上的样本均值和方差,以及总均值为,m=1,时,不加权法,:,m=1,时,加权法,:,按大小排列,D,i,i+1,可为相应两类的分界点,相应的标准差为令,m1,时,不加权法,:,记,对,x=(x,1,),y,l,(x)=v,(l),x,m1,时,加权法,:,记,则,则,Bayes,判别法,不用判别式,而用,比较,新给样品属于各个总体的,条件概率,P(,l,|,x,),l,=1,k,的大小,(,将新样品判归为来自概率最大的总体,).,先给出对于,k,个总体的先验概率,q,1,q,k,.,如各总体密度为,f,k,(x),则后验概率为,(g=1,k):,P(,g,|,x,)=,q,g,f,g,(,x,)/,S,i,q,i,f,i,(,x,),当且仅当,P(,h,|,x,)=max,g,P(,g,|,x,),判,x,来自第,h,总体,.,也可以用使错判的损失最小来判别,.,如果,c(i|j),为来自,j,总体的个体被错判到第,i,总体的损失,.,定义,平均错判损失,(ECM),为,ECM=,S,i,=1,q,i,S,li,P(,l,|,i,)c(,l,|,i,),逐步判别法,前面判别用了所有变量,.,但是各变量所起作用并不一样,.,要有进有出,引进“最重要的”并剔除不显著的,.,根据是假设检验,(,比如似然比检验,).,检验的零假设是各组变量均值相等,.Lambda(Wilks Lambda,统计量,),接近,0,表示组均值不同,接近,1,表示组均值没有不同,.,Chi-square,是,lambda,的卡方转换,(Bartelett,近似,),用于确定其显著性,.,鸢尾花数据,(,花瓣,花萼的长宽,),5,个变量,:,花瓣长,(slen),花瓣宽,(swid),花萼长,(plen),花萼宽,(pwid),分类号,(1:Setosa,2:Versicolor,3:Virginica),(data14-04),StatisticsClassify Discriminant:,Variables:,independent(,slen,swid,plen,pwid,)Grouping(,spno,)Define range(,min-1,max-3,),Classify:,prior probability(,All group equal,),use covariance matrix(,Within-groups,)Plots(,Combined-groups,Separate-groups,Territorial map,)Display(,Summary table,),Statistics:,Descriptive(,Means,),Function Coefficients(,Fishers,Unstandardized,)Matrix(,Within-groups correlation,Within-groups covariance,Separate-groups covariance,Total covariance,),Save:,(,Predicted group membership,Discriminant Scores,Probability of group membership,),鸢尾花数据,(,数据分析过程简明表,),鸢尾花数据,(,原始数据的描述,),鸢尾花数据,(,合并类内相关阵和协方差阵,),鸢尾花数据,(,总协方差阵,),鸢尾花数据,(,特征值表,),Eigenvalue:,用于分析的前两个典则判别函数的特征值,是组间平方和与组内平方和之比值,.,最大特征值与组均值最大的向量对应,第二大特征值对应着次大的组均值向量,典则相关系数,(canonical correlation):,是组间平方和与总平方和之比的平方根,.,被平方的是由组间差异解释的变异总和的比,.,鸢尾花数据,(Wilks Lambda,统计量,),检验的零假设是各组变量均值相等,.Lambda,接近,0,表示组均值不同,接近,1,表示组均值没有不同,.,Chi-square,是,lambda,的卡方转换,用于确定其显著性,.,鸢尾花数据,(,有关判别函数的输出,),标准化的典则判别函数系数,(,使用时必须用标准化的自变量,),鸢尾花数据,(,有关判别函数的输出,),典则判别函数系数,鸢尾花数据,(,有关判别函数的输出,),这是类均值,(,重心,),处的典则判别函数值,这是典则判别函数,(,前面两个函数,),在类均值,(,重心,),处的值,鸢尾花数据,(,用判别函数对观测量分类结果,),先验概率,(,没有给,),费歇判别函数系数,把自变量代入三个式子,哪个大归谁,.,Territorial Map,Canonical Discriminant,Function 2,-12.0 -8.0 -4.0 .0 4.0 8.0 12.0,趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌,12.0 12 23,12 23,12 23,12 23,12 23,12 23,8.0 12 23,12 23,12 23,12 23,12 23,12 23,4.0 12 23,12 23,12 23,12 23,12 23,12 23 *,.0 *12 23,12 *23,12 23,12 23,12 23,12 23,-4.0 12 23,12 23,12 23,12 23,12 23,12 23,-8.0 12 23,12 23,12 23,12 23,12 23,12 23,-12.0 12 23,趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌,-12.0 -8.0 -4.0 .0 4.0 8.0 12.0,Canonical Discriminant Function 1,Symbols used in territorial map,Symbol Group Label,-,1 1,刚毛鸢尾花,2 2,变色鸢尾花,3 3,佛吉尼亚鸢尾花,*,Indicates a group centroid,鸢尾花数据,Territory Map(,区域图,),Canonical Discriminate Function 1,Versus,Canonical Discriminate Function 2,三种,鸢尾花,的典则变量值把一个典则变量组成的坐标平面分成三个区域,.*,为中心坐标,.,鸢尾花数据,(,预测分类结果小结,),可以看出分错率,后面是相关分析,(Correlation Analysis),

展开阅读全文