收藏 分销(赏)

第五章-判别分析.ppt

上传人:精*** 文档编号:2091627 上传时间:2024-05-15 格式:PPT 页数:165 大小:2.83MB
下载 相关 举报
第五章-判别分析.ppt_第1页
第1页 / 共165页
第五章-判别分析.ppt_第2页
第2页 / 共165页
第五章-判别分析.ppt_第3页
第3页 / 共165页
第五章-判别分析.ppt_第4页
第4页 / 共165页
第五章-判别分析.ppt_第5页
第5页 / 共165页
点击查看更多>>
资源描述

1、休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析第五章把对象归类把对象归类 判别分析判别分析 (Discriminant Analysis)2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析第章第章 判别分析判别分析要点 5.1 5.1 判别分析的基本思想判别分析的基本思想 5.2 5.2 距离判别距离判别 5.3 5.3 贝叶斯判别贝叶斯判别 推荐阅读推荐阅读 5.4 5.4 费雪尔判别费雪尔判别 5.5 5.5 建立判别函数的方法建立判别函数的方法 5.6 SPSS 5.6 SPSS判别分析过程判别分析过程2008.8.休

2、息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析返回第第5 5章章 判别分析判别分析学学习习目的和要求:目的和要求:通过本章的学习,使学生了解判别分析概念及其适用范围,掌握四种判别分析的方法及其应用。应用SPSS进行计算处理。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析5.1.1 5.1.1 引引 例例5.1.2 5.1.2 判别分析的基本思想判别分析的基本思想5.1.3 5.1.3 判别分析的类型判别分析的类型5.1 判别分析的基本思想返回返回5.1.4 5.1.4 与聚类的区别和联系与聚类的区别和联系2008.8.休息

3、一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、引、引 例例 1 12 2、引、引 例例 2 2返回返回5.1.1 5.1.1 引引 例例5.1.2 5.1.2 判别分析的基本思想判别分析的基本思想5.1.3 5.1.3 判别分析的类型判别分析的类型5.1 判别分析的基本思想5.1.4 5.1.4 与聚类的区别和联系与聚类的区别和联系2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、引、引 例例 1 1 5.1.1 引 例 某医院已有1000个分别患有胃炎、肝炎、冠心病、糖尿病等的病人的资料,记录了他们每个人若干项

4、症状指标数据,就可以从这些指标数据发现各类病人的区别。把这种区别表示为一个判别公式,在测得一个新病人若干项症状指标的数据时,就可以根据其指标数据用判别公式诊断,判定他患的是哪种病。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析2 2、引、引 例例 2 2 5.1.1 引 例 有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。2008.8.休息一下休息一下统计学专业主干课程

5、统计学专业主干课程多元统计分析多元统计分析2 2、引、引 例例 2 2 5.1.1 引 例 这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 5.1.1 引 例 在生产、科研和日常生活中经常遇到需要判别的问题:在经济学中,根据人均国民收入、人均消费水平、人均住房面积等多种指标来判定一个国家的经济发展程度所属类型。在考古学中,根据发掘出来的人类头盖骨的高、宽等特征来判断其性别是男性还是女性。在税务稽查中,要判断某纳税户是诚实户还是偷税户。2008.8.休息一下休

6、息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 这些问题有一个共同的特点,就是事先已有“类”的划分,或事先已对某种已知样本分好了“类”。判别分析要解决的问题就是在已知历史上用某些方法已把研究对象分成若干类的情况下,来判定新的观测样品属于已知类别中的哪一类。5.1.1 引 例2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、判别分析基本思想、判别分析基本思想2 2、判别分析基本思路、判别分析基本思路返回返回5.1.1 5.1.1 引引 例例5.1.2 5.1.2 判别分析的基本思想判别分析的基本思想5.1.3 5.1.3 判别分

7、析的类型判别分析的类型5.1 判别分析的基本思想5.1.4 5.1.4 与聚类的区别和联系与聚类的区别和联系3 3、数据格式、数据格式2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 1 1、判别分析基本思想、判别分析基本思想 5.1.2 判别分析的基本思想 判别分析就是在已知研究对象分为若干类型(组别)并已经取得各种类型的一批已知样品的观测数据基础上,根据某些准则,建立起尽可能把属于不同类型的数据区分开来的判别函数,然后用它们来判别未知类型的样品应该属于哪一类。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析

8、 用统计的语言来表达,判别问题可以表述为:对于K个(类)总体G1,G2,GK(所有类的样品都测量了相同的p个指标,可表示为一个p维向量),其分布函数分别为F1(X),F2(X),FK(X)(均为p元分布函数),希望建立一个准则,对于一个给定样品X,依据这个准则就能判断出这个样品来自哪个总体。1 1、判别分析基本思想、判别分析基本思想 5.1.2 判别分析的基本思想 判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。当然,我们应该要求判别准则在某种意义下是最优,例如错判的概率最小或错判的损失最小等。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分

9、析 设有G1、G2、GK个总体;从不同的总体中抽出不同的样本;根据样本 建立判别法则 判别新的样品属于哪一个总体;当然,根据不同的方法,建立的判别法则也是不同的,常用的判别方法有:距离判别、Fisher判别、Bayes判别。2 2、判别分析基本思路、判别分析基本思路 5.1.2 判别分析的基本思想2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析3 3、判别分析的数据格式、判别分析的数据格式 5.1.2 判别分析的基本思想2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、按判别的组数、按判别的组数2 2、按

10、判别函数的形式、按判别函数的形式返回返回5.1.1 5.1.1 引引 例例5.1.2 5.1.2 判别分析的基本思想判别分析的基本思想5.1.3 5.1.3 判别分析的类型判别分析的类型5.1 判别分析的基本思想5.1.4 5.1.4 与聚类的区别和联系与聚类的区别和联系3 3、按处理变量的方法、按处理变量的方法4 4、按判别准则、按判别准则2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 5.1.3 判别分析的类型 根据资料的性质,分为定性资料的判别分析和定量资料的判别分析。本章的大部分内容是讨论定量资料的判别分析。2008.8.休息一下休息一下统计

11、学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、按判别的组数分、按判别的组数分 5.1.3 判别分析的类型按判别的组数分,有两组判别分析和多组判别分析。本章的大部分内容是讨论两组判别分析。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析2 2、按判别函数的形式分、按判别函数的形式分 5.1.3 判别分析的类型 按判别函数的形式(区分不同总体所用的数学模型)分,有线性判别和非线性判别。本章的大部分内容是讨论线性判别函数及其应用。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析3 3、按判别时处理变

12、量的方法不同、按判别时处理变量的方法不同 5.1.3 判别分析的类型根据判别时处理变量的方法不同,有逐步判别和序贯判别。本章的大部分内容是讨论序贯判别。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析4 4、按判别准则不同、按判别准则不同 5.1.3 判别分析的类型 按判别准则(判别的依据或标准)的不同有距离判别、费歇尔(Fisher)判别和贝叶斯(Bayes)判别。距离判别原理简单,直观易懂。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、与聚类分析的区别、与聚类分析的区别2 2、与聚类分析的联系、与

13、聚类分析的联系返回返回5.1.1 5.1.1 引引 例例5.1.2 5.1.2 判别分析的基本思想判别分析的基本思想5.1.3 5.1.3 判别分析的类型判别分析的类型5.1 判别分析的基本思想5.1.4 5.1.4 与聚类的区别和联系与聚类的区别和联系2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、与聚类分析的区别、与聚类分析的区别 判别分析必须事先知道需要判别的类型和数目,并且要有一批来自已知类型的样品(训练样本),才能建立判别式(判别函数),然后对新样品进行判别归类(带有“预测”的意义)。对类的事先划分常常通过聚类分析得到;5.1.4 判

14、别分析与聚类分析的区别和联系2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、与聚类分析的区别、与聚类分析的区别 对于聚类分析来说,一批给定样品划分的类型和数目事先都不知道,完全根据一批样品的数据特征用某种方法对样品进行合理的分类,使的同一类的事物比较接近,把不相似的事物分在不同类中(只是描述性的统计)。5.1.4 判别分析与聚类分析的区别和联系2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 5.1.4 判别分析与聚类分析的区别和联系2 2、与聚类分析的联系、与聚类分析的联系 聚类分析和判别分析有相似之

15、处,即两者都是研究分类问题;在实际中两者往往结合起来使用,样品聚类是进行判别分析之前的必要工作,根据样品聚类的结果进行判别分析。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析聚类与判别聚类与判别聚类聚类(clustering)分成几类?每个样品属于哪一类?判别判别(discriminate)已知分成几类(有师分类)根据训练样品建立判别函数根据判别函数对待判样品进行归类2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析5.2 距离判别返回返回5.2.1 5.2.1 距离判别的基本思想距离判别的基本思想5.2.2

16、5.2.2 两总体判别两总体判别5.2.3 5.2.3 多总体判别多总体判别2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、距离判别基本思想、距离判别基本思想返回返回5.2.1 5.2.1 距离判别的基本思想距离判别的基本思想5.2.2 5.2.2 两总体距离判别两总体距离判别5.2.3 5.2.3 多总体距离判别多总体距离判别5.2 距离判别2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、距离判别基本思想、距离判别基本思想 5.2.1 距离判别的基本思想 距离判别的基本思想按就近原则归类:首先

17、根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i 类的重心距离最近,就认为它来自第 i 类。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 用统计语言表述:已知总体G1,G2,GK,从每个总体中分别抽取n1,n2,,nk个样品,每个样品皆测量 P个指标,对新样品X=(X1,X2,XP),计算 X 到 G1,G2,GK的距离,记D(X,G1),D(X,G2),D(X,GK),按距离最近准则判别归类:即根据资料建立关于各总体的距离判别函数式,将各样品数据逐一代入计算,得出各样品与各总体之间的距离值,判样品属

18、于距离值最小的那个总体。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样品与某类别之间距离的大小,判别其所属类别。距离判别也称为直观判别法,因其方法直观、简单。该方法适用于连续型变量的判别分类;对变量的概率分布不要求有什么限制。1 1、距离判别基本思想、距离判别基本思想 5.2.1 距离判别的基本思想2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、两总体距离判别、两总体距离判别返回返回5.2.1 5.2.1 距离判别的基本思想距离判别的基本思

19、想5.2.2 5.2.2 两总体距离判别两总体距离判别5.2.3 5.2.3 多总体距离判别多总体距离判别5.2 距离判别2 2、应用实例、应用实例2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、两总体距离判别、两总体距离判别 5.2.2 两总体距离判别 设有两个总体G1和G2,X是一个P维样本,定义样本X到总体G1和G2的距离d2(X,G1)和d2(X,G2),当总体G1和G2为正态总体且协差阵相等时,距离选用马氏距离,即其中:1,2,1,2分别为总体G1和G2的均值和协差阵。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程

20、多元统计分析多元统计分析1 1、两总体距离判别、两总体距离判别 5.2.2 两总体距离判别 用如下的规则进行判别:若样本X到总体G1的距离小于到总体G2的距离,则认为样本X属于总体G1,反之则认为样本X属于总体G2;若样本X到总体G1和G2的距离相等,则让它待判。这个准则的数学模型为:2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、两总体距离判别、两总体距离判别 5.2.2 两总体距离判别(5.1)2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、两总体距离判别、两总体距离判别 5.2.2 两总体

21、距离判别 与上述准则等价的想法,就是算出样品x 到总体G2和G1的距离差,若差值为正,则样品X属于G1,否则,X 属于G2,据此考查二者的差,假设则可证明:2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、两总体距离判别、两总体距离判别 5.2.2 两总体距离判别2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析已知时,令W(X)=W(x)=令当(是一个已知的p维向量)2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析于是判别规则(5.1)可表示为:如W(X)0如W(

22、X)2),那么由图 5-1可以看出:当Y事实上属于G1,它的观察值(测量值)在=(1+2)/2的右边,这时如果按上面讨论的规则就应把Y判断为属于G2,因为Y距G2的均值比距G1的均值要近。这就造成了错判。1 1、两总体距离判别、两总体距离判别 5.2.2 两总体距离判别2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析图 5-11 1、两总体距离判别、两总体距离判别 5.2.2 两总体距离判别2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 由图可以看出,当两总体G1与G2十分接近时,则无论用什么方法,误判概率都

23、很大,这时的判别是没有意义的。即如果两个总体(类别)间的差异本来就不显著,那么就根本没有必要去作判别,即有效的判别必须以显著的差异为前提。因此,在考虑建立判别函数之前,应首先检验总体间是否存在显著的差异(在判别之前应对两总体的均值是否有显著差异进行检验)。H0:H1:2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 另外,以上讨论的判别函数及规则并没有涉及到总体的具体分布类型,只要逆矩阵存在就可以。当两总体的协方差矩阵不同时,就不能用前文的W(X)进行判别,这时可直接计算马氏距离进行判别。1 1、两总体距离判别、两总体距离判别 5.2.2 两总体距离判

24、别2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析2 2、应用实例、应用实例 5.2.2 两总体距离判别 例5.2:例4.4.3中我们曾研究过全国城镇居民月平均消费情况,当划分为两类时,结果列于spssex-5:表5-1。120号省区为一类,记为G1,2127号省、市、区为另一类,记为G2。试判别西藏、上海、广东三个省、市、区应归属哪一类(表后三行是待判的三省区数据)?2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 类G1为低消费的总体,类G2为高消费的总体。经计算,各类样品的指标均值为:2 2、应用实例、应

25、用实例 5.2.2 两总体距离判别2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析总体协差阵的逆矩阵为:0.539 0.044 -0.106 0.003 0.088 0.064 0.179 -0.053 0.044 0.032 -0.040 -0.025 0.106 -0.052 -0.042 -0.123-0.106 -0.040 0.385 -0.006 -0.143 0.061 0.067 0.059 0.003 -0.025 -0.006 0.620 -0.495 0.122 0.627 -0.0830.088 0.106 -0.143 -0.

26、495 0.713 -0.331 -0.583 -0.0120.064 -0.052 -0.061 0.122 -0.331 0.503 0.433 -0.0760.179 -0.042 0.067 0.627 -0.583 0.433 4.780 -0.015-0.053 -0.123 0.059 -0.083 -0.012 -0.076 -0.015 0.6522008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析将原27个样品的回判结果及3个待判样品的判别结果列于表Spssex-5:5-2和表5-3,回判误判率为零,西藏、上海、广东三个省区应归属于高消

27、费的总体G2。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、多总体距离判别、多总体距离判别返回返回5.2.1 5.2.1 距离判别的基本思想距离判别的基本思想5.2.2 5.2.2 两总体距离判别两总体距离判别5.2.3 5.2.3 多总体距离判别多总体距离判别5.2 距离判别2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 类似于两总体情况,计算样品 X 到每个总体的距离d2(X,Gi)(i=1,2,-k,),然后比较这些距离,如 X 距离总体Gi的距离最短,则判X属于总体Gi。1 1、多总体距离判

28、别、多总体距离判别 5.2.3 多总体距离判别2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 设有个总体 G1,,Gk,它们的均值分别是 ,协方差矩阵均是 ,则(1)协方差矩阵相同1 1、多总体距离判别、多总体距离判别 5.2.3 多总体距离判别2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析判别函数为:1 1、多总体距离判别、多总体距离判别 5.2.3 多总体距离判别2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析相应的判别准则为:当若有某一个,对一切待判,当未知时

29、可用其估计量代替。1 1、多总体距离判别、多总体距离判别 5.2.3 多总体距离判别2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、多总体距离判别、多总体距离判别 5.2.3 多总体距离判别此时判别函数为:(2)协方差矩阵不相同2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析相应的判别准则为当未知时,可用 的估计量代替。1 1、多总体距离判别、多总体距离判别 5.2.3 多总体距离判别2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析5.3 贝叶斯判别返回返回5.

30、3.1 5.3.1 Bayes判别的概念判别的概念5.3.2 5.3.2 Bayes判别的基本思想判别的基本思想2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、距离判别的不足之处、距离判别的不足之处返回返回5.3.1 5.3.1 Bayes判别的概念判别的概念5.3.2 5.3.2 Bayes判别的统计思想判别的统计思想5.3 贝叶斯判别2 2、Bayes判别的概念判别的概念2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、距离判别的不足之处、距离判别的不足之处 5.3.1 Bayes判别的概念

31、距离判别只要求知道总体的特征量(参数)均值和协差阵,不涉及总体的分布类型,当参数未知时,就用样本均值和样本协差阵来估计。距离判别方法简单、结论明确,是很实用的方法。但距离判别方法也有缺点,一是判别法与各总体出现的机会大小(先验概率)完全无关;二是判别方法没有考虑错判造成的损失,这是不合理的。Bayes判别法正是为解决这两方面问题而提出的判别方法。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、距离判别的不足之处、距离判别的不足之处 5.3.1 Bayes判别的概念 设有两个总体G1和G2,根据某一判别规则,将实际上为G1的概率判为G2或者将实际

32、上为G2的个体判为G1的概率就是误判概率,一个好的判别规则应当使误判概率最小。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 除此之外,还有一个误判损失问题或者说误判产生的花费问题,如把G1的个体误判到G2的损失比G2的个体误判到G1严重得多,则在作前一种判断时就要特别谨慎。譬如在药品检验中把有毒的个体判为无毒的其后果比无毒个体判为有毒的严重得多,因此一个好的判别规则还必须使得误判损失为最小。实际应用中,由于错判损失不容易确定,因此,判别分析中各种误判的后果允许看作是相同的。1 1、距离判别的不足之处、距离判别的不足之处 5.3.1 Bayes判别的

33、概念2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 我们仍以两个总体的情况来讨论,设所考虑的两个总体G G1 1与G G2 2分别具有密度函数f1(x)与f2(x),其中x为p维向量,R1为根据我们的规则要判为G G1 1的那些x的全体,而R2=-R1是要判G G2 2的那些x的全体。显然R1与R2互斥完备,某个个体实际是来自G G1 1,但被判为G G2 2的概率为 来自G G1 1被判为G G1 1的概率为2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析类似地,来自G2被判为G1以及来自G2被判为G2的概

34、率分别为1 1、距离判别的不足之处、距离判别的不足之处 5.3.1 Bayes判别的概念2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 又设P1和P2分别表示总体G1和G2的先验概率,且P1+P2=1,于是:2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 判别样品的归属时,考虑的不是建立判别式,而是计算新给样品属于各总体的后验概率P(Gi|x)i=1,k。比较这k个概率的大小,然后将新样品判归为来自概率最大的总体,这种判别法称为Bayes判别法通常用于多组判別。2 2、Bayes判别的概念判别的概念 5.3

35、.1 Bayes判别的概念2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、Bayes判别的统计思想判别的统计思想返回返回5.3.1 5.3.1 Bayes判别的概念判别的概念5.3.2 5.3.2 Bayes判别的统计思想判别的统计思想5.3 距离判别2 2、先验概率先验概率3 3、后验概率后验概率4 4、判别函数和判别准则判别函数和判别准则2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、Bayes判别的统计思想判别的统计思想 5.3.2 Bayes判别的统计思想 假定对研究的对象已有一定的认识

36、,常用先验概率分布来描述这种认识。然后我们抽取一个样本,用样本来修证已有的认识(先验概率分布),得到后验概率分布。比较这些概率的大小,将待判样品判归为来自概率最大的总体。简单地说:贝叶斯判别是根据先验概率分布,求出后验概率分布,对多个总体的判别考虑的不是建立判别式,而是比较后验概率的大小。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 2 2、先验概率先验概率 5.3.2 Bayes判别的统计思想 用概率来描述人们事先对所研究对象的认识的程度,或称为验前概率(qi)。即已知 K个总体(G1,G2,GK)各自出现的概率为q1,q2,qk(qi0,q1+

37、q2+qk=1)。比如:研究人群中得癌症(G1)和没有得癌症(G2)两类群体的问题,由长期经验知:q1=0.001,q2=0.999。这组验前概率q1,q2,qk称为先验概率。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 2 2、先验概率先验概率 5.3.2 Bayes判别的统计思想 先验概率是一种权重(比例),所谓“先验”是指先于我们抽取样品作判别分析之前。Bayes判别准则要求给出qi 的值。qi 的赋值方法有以下几种:2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 (1)利用历史资料及经验进行估计。

38、例如,某地区成年人中得癌症的概率为P(癌)=0.001 q1,而P(无癌)=0.999 q2。2 2、先验概率先验概率 5.3.2 Bayes判别的统计思想2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 2 2、先验概率先验概率 5.3.2 Bayes判别的统计思想 (2)利用训练样本中各类占的比例 作为qi的值,其中ni是第i类总体的样品数;,这时要求训练样本是通过随机抽样得到的,各类样品被抽到的机会大小就是验前概率。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析(3)假定q1=q2=qk=2 2、先验概

39、率先验概率 5.3.2 Bayes判别的统计思想2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 3 3、后验概率后验概率 5.3.2 Bayes判别的统计思想 根据具体资料、先验概率、特定的判别规则所计算出来的概率,它是对先验概率修正后的结果,或称为条件概率。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 又设样品x来自总体Gi的先验概率为qi,i=1,k,满足q1+qk=1.X 到Gi的平方马氏距离是 设有k个总体 G1,Gk,且2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分

40、析多元统计分析来自 Gi 的X的概率密度为:利用贝叶斯理论,x 属于Gi的后验概率(即当样品x已知时,它属于Gi的概率)为2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 4 4、判别函数和判别准则、判别函数和判别准则 5.3.2 Bayes判别的统计思想 判别函数可为后验概率P(g/x)或错判的平均损失E(h/x)。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 4 4、判别函数和判别准则、判别函数和判别准则 5.3.2 Bayes判别的统计思想 判别准则为后验概率最大或错判的平均损失最小,可以证明两者是等

41、价的。Bayes 判别可直接用于待判样品的分类。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 建立的判别规则为:计算样品X 到每一个组中心的广义平方距离,并把 X 判入最近的类。广义平方距离的计算可能使用合并的协方差阵估计或者单独的协方差阵估计,并与先验概率有关。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析X到Gi的广义平方距离定义为gi=ln若0hi=-2lnqi,若q1,qk不全相等0若若2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析由此可推出属于Gi的后

42、验概率为:可采用如下的判别规则:2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析则广义平方距离将退化为平方马氏距离,即实际应用中,以上各式中的 一般都是未知的,需要通过样本进行估计。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析5.4 费雪尔判别返回返回5.4.1 5.4.1 Fisher判别的基本思想判别的基本思想5.4.2 5.4.2 Fisher判别函数和准则判别函数和准则2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析1 1、Fisher判别基本思想判别基本思

43、想返回返回5.4.1 5.4.1 Fisher判别的基本思想判别的基本思想5.4.2 5.4.2 Fisher判别函数和准则判别函数和准则5.4 费雪尔判别2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 1 1、FisherFisher判别的基本思想判别的基本思想 5.4.1 Fisher判别的基本思想l Fisher 判别法是一种线性判别的方法,通过将多维数据投影到某个方向上,投影的原则是将总体与总体之间尽可能分开,然后再选择合适的判别准则,将待判的样品进行分类判别通常用于两组判別问题。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干

44、课程多元统计分析多元统计分析1 1、Fisher判别函数和准则判别函数和准则返回返回5.4.1 5.4.1 Fisher判别的基本思想判别的基本思想5.4.2 5.4.2 Fisher判别函数和准则判别函数和准则5.4 费雪尔判别2 2、应用实例应用实例2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 1 1、FisherFisher判别函数和判别准则判别函数和判别准则 5.4.2 Fisher判别函数和判别准则假定判别函数为:Yi=C1X1+C2X2+CPXP (i=1,2k)其中:K:判别类别数目;Y:判别分数或判别值;X1;XP:判别变量或自变量

45、;C1;CP:判别系数,表示各判别变量对判别值的影 响;2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 1 1、FisherFisher判别函数和判别准则判别函数和判别准则2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 1 1、FisherFisher判别函数和判别准则判别函数和判别准则2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 1 1、FisherFisher判别函数和判别准则判别函数和判别准则 5.4.2 Fisher判别函数和判别准则2008.8.休息一

46、下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 2 2、应用实例、应用实例 5.4.2 Fisher判别函数和判别准则2008.8.2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 2 2、应用实例、应用实例 5.4.2 Fisher判别函数和判别准则2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 2 2、应用实例、应用实例 5.4.2 Fisher判别函数和判别准则2008.8.休息一下休息一下

47、统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 多元分析中有一个非常重要的思想方法,就是采用降维技术,把RP中的点通过适当方式投影到低维空间,即用低维向量近似地替代P维向量,然后在低维空间上在进行组的判别。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析考虑只有两个(预测)变量的判别分析问题。假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图。这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。2008.8.休息一下休息一下统

48、计学专业主干课程统计学专业主干课程多元统计分析多元统计分析2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。有了投影之后,再用前面讲到的距离远近的方法来得到判别准则。这种首先进行投影的判别方法就是Fisher判别法。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析两类Fisher判别示意图X2X1Y=b1X1+b2X2G1G22008.8.休息一下休

49、息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析投影(变换):将多元观测值X变换成一元观测值Y,使得由总体G1和G2导出的尽可能地分开。费歇尔建议用X的线性组合来建立Y,因为它是X的非常简单的函数,易于掌握;费歇尔的方法并未假定总体具有正态性,但是隐含有总体协方差矩阵相等的假定,因为使用了公共协方差矩阵的联合估计量。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 这个线性函数把P维空间中的已知类别总体以及已知类别归属的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归属。这个线性函数应该能够在把P维空间中的所有点转

50、化为一维数值之后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩大不同类别中各个样本点之间的差异,这样才可能获得较高的判别效率。在这里借用了一元方差分析的思想,即依据组间均方差与组内均方差之比最大的原则来进行判别。2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析 设有两个总体 G1、G2,其均值分别为2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析2008.8.休息一下休息一下统计学专业主干课程统计学专业主干课程多元统计分析多元统计分析5.5.1 5.5.1 引引 例例5.5.2 5.5.2 判

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服