厦门大学《应用多元统计分析》第04章_判别分析.ppt

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第四章判别分析,第一节,引言,第二节,距离判别法,第三节,贝叶斯（,Bayes,）判别法,第四节,费歇（,Fisher,）判别法,第五节,实例分析与计算机实现,第一节引言,在我们的日常生活和工作实践中，常常会遇到判别分析问题，即根据历史上划分类别的有关资料和某种最优准则，确定一种判别方法，判定一个新的样本归属哪一类。例如，某医院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的资料，记录了每个患者若干项症状指标数据。现在想利用现有的这些资料找出一种方法，使得对于一个新的病人，当测得这些症状指标数据时，能够判定其患有哪种病。又如，在天气预报中，我们有一段较长时间关于某地区每天气象的记录资料（晴阴雨、气温、气压、湿度等），现在想建立一种用连续五天的气象资料来预报第六天是什么天气的方法。这些问题都可以应用判别分析方法予以解决。,把这类问题用数学语言来表达，可以叙述如下：设有,n,个样本，对每个样本测得,p,项指标（变量）的数据，已知每个样本属于,k,个类别（或总体）,G,1,，,G,2,，,，,G,k,中的某一类，且它们的分布函数分别为,F,1,(,x,),，,F,2,(,x,),，,，,F,k,(,x,),。我们希望利用这些数据，找出一种判别函数，使得这一函数具有某种最优性质，能把属于不同类别的样本点尽可能地区别开来，并对测得同样,p,项指标（变量）数据的一个新样本，能判定这个样本归属于哪一类。,判别分析内容很丰富，方法很多。判断分析按判别的总体数来区分，有两个总体判别分析和多总体判别分析；按区分不同总体所用的数学模型来分，有线性判别和非线性判别；按判别时所处理的变量方法不同，有逐步判别和序贯判别等。判别分析可以从不同角度提出问题，因此有不同的判别准则，如马氏距离最小准则、,Fisher,准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等，按判别准则的不同又提出多种判别方法。本章仅介绍常用的几种判别分析方法：距离判别法、,Fisher,判别法、,Bayes,判别法和逐步判别法。,第二节距离判别法,一,马氏距离的概念,二,距离判别的思想及方法,三,判别分析的实质,一、马氏距离的概念,图,4.1,为此，我们引入一种由印度著名统计学家马哈拉诺比斯（,Mahalanobis,1936,）提出的“马氏距离”的概念。,二、距离判别的思想及方法,1,、两个总体的距离判别问题,问题：设有协方差矩阵,相等的两个总体,G,1,和,G,2,，其均值,分别是,1,和,2,，对于一个新的样品,X,，要判断它来自哪个总体。,一般的想法是计算新样品,X,到两个总体的马氏距离,D,2,（,X,，,G,1,）,和,D,2,（,X,，,G,2,）,，并按照如下的判别规则进行判断,这个判别规则的等价描述为：求新样品,X,到,G,1,的距离与到,G,2,的距离之差，如果其值为正，,X,属于,G,2,；否则,X,属于,G,1,。,我们考虑,这里我们应该注意到：,2,、多个总体的距离判别问题,三、判别分析的实质,我们知道，判别分析就是希望利用已经测得的变量数据，找出一种判别函数，使得这一函数具有某种最优性质，能把属于不同类别的样本点尽可能地区别开来。为了更清楚的认识判别分析的实质，以便能灵活的应用判别分析方法解决实际问题，我们有必要了解“划分”这样概念。,设,R,1,，,R,2,，,，,R,k,是,p,维空间,R,p,的,k,个子集，如果它们互不,相交，且它们的和集为,R,p,，则称,R,1,，,R,2,，,，,R,k,为,R,p,的一个划分。,这样我们将会发现，判别分析问题实质上就是在某种意义上，以最优的性质对,p,维空间,R,p,构造一个“划分”，这个“划分”就构成了一个判别规则。这一思想将在后面的各节中体现的更加清楚。,第三节贝叶斯（,Bayes,）判别法,一,Bayes,判别的基本思想,二,Bayes,判别的基本方法,从上节看距离判别法虽然简单，便于使用。但是该方法也有它明显的不足之处。,第一，判别方法与总体各自出现的概率的大小无关；,第二，判别方法与错判之后所造成的损失无关。,Bayes,判别,法就是为了解决这些问题而提出的一种判别方法。,一、,Bayes,判别的基本思想,二、,Bayes,判别的基本方法,如果已知样品,X,来自总体,G,i,的先验概率为,q,i,，则在规则,R,下，由（,4.12,）式知，误判的总平均损失为,第四节费歇（,Fisher,）判别法,一,Fisher,判别的基本思想,二,Fisher,判别函数的构造,三,线性判别函数的求法,Fisher,判别法是,1936,年提出来的，该方法的主要思想是通过将多维数据投影到某个方向上，投影的原则是将总体与总体之间尽可能的放开，然后再选择合适的判别规则，将新的样品进行分类判别。,一、,Fisher,判别的基本思想,二、,Fisher,判别函数的构造,1,、针对两个总体的情形,2,、针对多个总体的情形,三、线性判别函数的求法,这里值得注意的是，本书有几处利用极值原理求极值时，只给出了不要条件的数学推导，而有关充分条件的论证省略了，因为在实际问题中，往往根据问题本身的性质就能肯定有最大值（或最小值），如果所求的驻点只有一个，这时就不需要根据极值存在的充分条件判定它是极大还是极小而就能肯定这唯一的驻点就是所求的最大值（或最小值）。为了避免用较多的数学知识或数学上的推导，这里不追求数学上的完整性。,第五节实例分析与计算机实现,这一节我们利用,SPSS,对,Fisher,判别法和,Bayes,判别法进行计算机实现。,为研究某地区人口死亡状况，已按某种方法将,15,个已知地区样品分为,3,类，指标含义及原始数据如下。试建立判别函数，并判定另外,4,个待判地区属于哪类？,X,1,：,0,岁组死亡概率,X,4,：,55,岁组死亡概率,X,2,：,1,岁组死亡概率,X,5,：,80,岁组死亡概率,X,3,：,10,岁组死亡概率,X,6,：平均预期寿命,表,4.1,各地区死亡概率表,(,一,),操作步骤,1.,在,SPSS,窗口中选择,AnalyzeClassifyDiscriminate,，调出判别分析主界面，将左边的变量列表中的“,group”,变量选入分组变量中，将,变量选入自变量中，并选择,Enter independents together,单选按钮，即使用所有自变量进行判别分析。,图,4.2,判别分析主界面,2.,点击,Define Range,按钮，定义分组变量的取值范围。本例中分类变量的范围为,1,到,3,，所以在最小值和最大值中分别输入,1,和,3,。单击,Continue,按钮，返回主界面。,3.,单击,Statistics,按钮，指定输出的描述统计量和判别函数系数。选中,Function Coefficients,栏中的,Fishers,和,Unstandardized,。这两个选项的含义如下：,Fishers,：给出,Bayes,判别函数的系数。（注意：这个选项不是要给出,Fisher,判别函数的系数。这个复选框的名字之所以为,Fishers,，是因为按判别函数值最大的一组进行归类这种思想是由,Fisher,提出来的。这里极易混淆，请读者注意辨别。）,Unstandardized,：给出未标准化的,Fisher,判别函数（即典型判别函数）的系数（,SPSS,默认给出标准化的,Fisher,判别函数系数）。,单击,Continue,按钮，返回主界面。,图,4.3 Statistics,子对话框,4.,单击,Classify,按钮，定义判别分组参数和选择输出结果。选择,Display,栏中的,Casewise,results,，输出一个判别结果表，包括每个样品的判别分数、后验概率、实际组和预测组编号等。其余的均保留系统默认选项。单击,Continue,按钮。,图,4.4 Classify,子对话框,5.,单击,Save,按钮，指定在数据文件中生成代表判别分组结果和判别得分的新变量，生成的新变量的含义分别为：,Predicted group membership,：存放判别样品所属组别的值；,Discriminant,scores,：存放,Fisher,判别得分的值，有几个典型判别函数就有几个判别得分变量；,Probabilities of group membership,：存放样品属于各组的,Bayes,后验概率值。,将对话框中的三个复选框均选中，单击,Continue,按钮返回。,6.,返回判别分析主界面，单击,OK,按钮，运行判别分析过程。,图,4.5 Save,子对话框,（二）主要运行结果解释,1.Standardized Canonical,Discriminant,Function Coefficients,（给出标准化的典型判别函数系数）,标准化的典型判别函数是由标准化的自变量通过,Fisher,判别法得到的，所以要得到标准化的典型判别得分，代入该函数的自变量必须是经过标准化的。,2.Canonical,Discriminant,Function Coefficients,（给出未标准化的典型判别函数系数）,未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分，所以该系数使用起来比标准化的系数要方便一些。见表,4.2,（,a,）。,由此表可知，两个,Fisher,判别函数分别为：,实际上两个函数式计算的是各观测值在各个维度上的坐标，这样就可以通过这两个函数式计算出各样品观测值的具体空间位置。,表,4.2,（,a,）未标准化的典型判别函数系数,3.Functions at Group,Centroids,（给出组重心处的,Fisher,判别函数值）,如表,4.2(b),所示，实际上为各类别重心在空间中的坐标位置。这样，只要在前面计算出各观测值的具体坐标位置后，再计算出它们分别离各重心的距离，就可以得知它们的分类了。,表,4.2,（,b,）组重心处的,Fisher,判别函数值,4.Classification Function Coefficients,（给出,Bayes,判别函数系数）,如表,4.3,所示，,GROUP,栏中的每一列表示样品判入相应列的,Bayes,判别函数系数。在本例中，各类的,Bayes,判别函数如下：,第一组：,第二组：,第三组：,将各样品的自变量值代入上述三个,Bayes,判别函数，得到三个函数值。比较这三个函数值，哪个函数值比较大就可以判断该样品判入哪一类。例如，将第一个待判样品的自变量值分别代入函数，得到：,F,1,=3793.77,，,F,2,=3528.32,，,F,3,=3882.48,比较三个值，可以看出最大，据此得出第一个待判样品应该属于第三组。,表,4.3,Bayes,判别法的输出结果,5.,Casewise,Statistics,（给出个案观察结果）,在,Casewise,Statistics,输出表针对每个样品给出了了大部分的判别结果，其中包括：实际类（,Actual Group,）、预测类（,Predicted Group,）、,Bayes,判别法的后验概率、与组重心的马氏距离（,Squared,Mahalanobis,Distance to,Centroid,）以及,Fisher,判别法的每个典型判别函数的判别得分（,Discriminant,Scores,）。出于排版要求，这里给出结果表的是经过加工的，隐藏了其中的一些项目，如表,4.4,所示。从表中可以看出四个待判样本依次被判别为第三组、第一组、第二组和第三组。,表,4.4,个案观察结果表,6.,由于我们在,Save,子对话框中选择了生成表示判别结果的新变量，所以在数据编辑窗口中，可以观察到产生的新变量。其中，变量,dis-1,存放判别样品所属组别的值，变量,dis1-1,和,dis2-1,分别代表将样品各变量值代入第一个和第二个判别函数所得的判别分数，变量,dis1-2,、,dis2-2,和,dis3-2,分别代表样品分别属于第,1,组、第,2,组和第,3,组的,Bayes,后验概率值。,本章结束,

展开阅读全文