资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,第,19,章 判别分析,学习目标,了解判别分析的基本思想;,熟悉Bayes判别分析法和Fisher判别分析法;,掌握BAYES参数分析法的判别准则效能的评估;,掌握判别分析的SAS过程步:DISCRIM、CANDISC和STEPDISC过程步。,概述,在医学研究和疾病防治工作中,经常会遇到需要根据观测到的资料对所研究的对象进行分类的问题。例如,需要根据就诊者的各项症状、体征及化验指标,作出就诊者是否患有某种疾病或某种疾病的哪一类型的诊断;又如,在环境监测中,根据对某地区的环境污染的综合测定结果判断该地区属于哪一种污染类型等。,概述,判别分析,的任务是根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个,总体,。判别分析是对样本个体进行分类的另一种统计分析方法,它和聚类分析一样,都可以将样本个体按其具有的特性进行分类。,概述,聚类分析和判别分析有很大的区别,判别分析是根据一批分类明确的样本在若干指标上的观察值,建立一个判别函数和判别准则,然后以此准则对新的样本进行分类。由此可知,这两种分类方法有着本质的不同:聚类分析可以对样本进行分类,也可以对指标进行分类;而判别分析只能对样本进行分类;聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类;聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类。,判别分析,判别分析是一种根据观测变量判断研究样本如何分类的多变量统计方法,它对于需要根据对样本中每个个案的观测来建立一个分组预测模式的情况是非常适用的。分析过程基于对预测变量的线性组合产生一系列判别函数,但是这些预测变量应该能够充分地体现各个类别之间的差异。判别函数是从一个每个个案所属的类别已经确定的样本中拟合出来的,并且生成的函数能够运用于同样进行了预测变量观测的新的样本点,以判断其类别归属。,判别分析,判别分析的基本原理可以表述为:在一个,P,维空间,R,中,有,K,个已知的总体,G,1,,,G,2,,,G,3,,,,,G,K,,同时有样本点,X,(,X,1,,,X,2,,,X,3,,,,,X,P,),它属于且仅属于这,K,个总体中的一个,判别分析所要解决的问题是确定这个样本点,X,具体应该属于那一个,G,总体。实际上判别分析的过程分为两个部分,首先是依据已知样本及其预测变量建立起一系列分类规则或判别规则,其次是运用这一规则对样本的原有分类进行检验以确定原有分类错判率。同时如果原有分类具有较低的错判率,则建立起来的分类规则可以应用于实际工作中。,判别分析,判别分析的基本思想是根据一批分类明确的样本在若干指标上的观察值,建立一个关于指标的判别函数和判别准则,然后根据这个判别函数和判别准则对新的样本进行分类,并且根据回代判别的准确率评估它的实用性。例如,以一批正常和一批已确诊的病人为样本,收集他们的各项指标,如化验指标、,X,线、心脑电图、超声波等诊断指标,然后利用这批分类明确的样本在这些指标上的观察值,建立一个关于指标的判别函数和判别准则(区分正常人和病人的方法),使得按此准则来判断这批样本归属的正确率达到最高。它有着广泛的应用价值,尤其在计算机疾病辅助诊断等医学科学研究中起了重要作用。,判别分析,判别函数是一个关于指标变量的函数。每一个样本在指标变量上的观察值代入判别函数后可以得到一确定的函数值,将所有样本按其函数值的大小和事先规定的判别原则分到不同的组里,并使得分组结果与原样本归属最吻合。这就是判别分析方法的基本过程。进行判别分析的目的是根据样本建立判别函数和判别准则,用以对新的样本进行归类。不同判别分析方法的区别在于其建立判别函数的方法和判别准则的规定是不同的。,判别分析,判别分析的方法中较常使用的有,Bayes,判别分析法和,Fisher,判别分析法。,Fisher,判别分析法是以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类;而,Bayes,判别分析法是以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类。前者仅适用于两类判别,后者适用于多类判别。,对判别分析结果的优劣评价明确尚无系统的检验理论,只能通过错判率和事后概率错误率的估计来评估判别分类的有效性。,FISHER,判别分析法,假设,A,和,B,为分类明确的两类症状。在总体,A,中观察了,p,例,在总体,B,中观察了,q,例,每一例记录了,k,个指标,它们是 。令,y,是这,k,个指标的一个线性函数,即:,其中,是待估计的未知系数。称上述线性函数是,FISHER,判别分析法的判别函数。如果,a,是总体,A,中的一个样本,,b,是总体,B,中的一个样本,这,y(a),和,y(b),分别是这两个样本的判别函数值。,FISHER,判别分析法的基本原理是选择一组适当的系数,使得类间差异最大且类内差异最小。,FISHER,判别分析法,根据FISHER判别分析法的基本原理,就是要选择一组适当的系数,使得类间差异最大且类内差异最小,即使得下式的Q值达到最大。,使得Q值达到最大就是Q的一阶偏导函数等于0的方程组的解,由,FISHER,判别分析法,可以得到:,其中,,FISHER,判别分析法,令上述方程的解是 ,那么,FISHER,判别函数估计式是:,因此,对于任意一个样本在,k,个指标上的观察值,都可以计算出对应的判别函数值,令判别临界点是:,FISHER,判别分析法,那么,FISHER判别准则是:,时,该样本属于B类;,时,该样本属于A类;,各项指标在判别分析中所起的作用是不同的。贡献率的大小由下式决定:,BAYES,判别分析法,BAYES,判别分析法是以概率为判别准则使得每一类中的每一个样本都以最大概率进入该类。,BAYES,判别是一种概率型的判别分析,在分析过程开始时需要获得各个类别的分布密度函数,同时也需要知道样本点属于各个类别的先验概率,以建立一个合适的判别规则;而分析过程结束时则计算每个样本点归属于某个类别的最大概率或最小错判损失,以确定各个样本点的预测类别归属。,BAYES,判别分析法,BAYES判别分析法在理论和处理方法上都比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,使得判别分析的效能得到较大的提高。SAS软件的判别分析过程是以BAYES判别分析法为理论基础的。,BAYES,判别分析法,BAYES判别法的判别准则是,将每一个点x判别到事后概率最大的类中。利用已知的数据以及求极小值的方法,可以估计出的系数,从而可以得到判别函数的系数估计值,这些估计出的系数使得每一个样本x属于某个类的事后概率达到最大。,判别分析,判别分析的结果对应着分析的不同步骤过程,也就包括了分类规则和分类结果两个部分。在分类规则中应该包括典型判别函数、衡量预测变量与判别函数之间关系的结构矩阵以及Fisher线性分类函数。典型判别函数是基于BAYES判别思想建立起来的,主要用途在于对参与分析的各个类别、各个预测变量、各个类别中的各个样本点及其相互关系进行考察。,判别分析,要将典型判别函数应用于大量的实践操作中是不现实的,因为这涉及到对被分类的样本计算各种概率,十分繁琐不利用操作。而,FISHER,线性分类函数则是针对每个类别分别建立起来的,可以直接应用实践操作中对新的样本进行分类。在分类结果部分则依据已经建立起来的分类规则对参与分析的各个样本点重新进行分类,并通过与原有分类进行比较来确定原有分类的判对率。,判别函数中判别能力检验,一个判别函数判别样本归类的功能强弱很大程度上取决与指标的选取。如果判别函数中特异性强的指标越多,则判别函数的判别功能也就越强。相反,不重要的指标越多,判别函数就越不稳定,其判别效果非但得不到改善,甚至会适得其反。因此,要建立一个有效的判别函数,指标的选取很重要,过多过少都不一定合适。一方面要根据专业知识和经验来筛选指标,另一方面要借助统计分析方法检验指标的性能。,判别函数中判别能力检验,在一个判别函数中,每一个指标变量对判别函数的判别能力都有所贡献。贡献的大小可以用一元方差分析和多元方差分析来检验。一元方差分析可以检验每一个指标是否对判别函数的判别能力有显著性意义,统计检验的无效假设是:单一指标对判别函数的作用不显著。多元方差分析可以检验所有指标是否联合对判别函数的判别能力有显著性意义,统计检验的无效假设是:所有指标对判别函数的联合作用不显著。,BAYES,参数分析法的判别准则效能评估,对于,BAYES,参数分析法的判别准则效能的评估,常用的是两个错误率估计指标。一个为错判率估计,另一个为事后概率错误率估计。,错误率估计是从回代过程得到的结果,类内错判率等于类内被错判的样本数所占的比例。例如,原数据中第一类有,n,1,个样本,用判别函数判别后,有,m,1,个被判到其它类中,那么第一类的错判率等于,m,1,/n,1,。总体错判率等于总体被错判的样本数所占的比例。例如,原数据有两类,第一类有,n,1,个样本,第二类有,n,2,个样本,用判别函数判别后,第一类有,m,1,个被判到其它类中,第二类有,m,2,个样本被判到其它类中,那么总体的错判率等于(,m,1,m,2,),/,(,n,1,n,2,)。,BAYES,参数分析法的判别准则效能评估,在回代过程和判别新的样本时,都可以估计事后概率错判率。令,x,属于类,t,的事前概率为,pt,,事后概率为,样本总数为,n,,类,t,的样本数为,nt,,类,t,的事后概率错判率为,Et,,总体事后概率错判率为,E,,其估计公式是:,BAYES,参数分析法的判别准则效能评估,其中,第一个公式表示从所有类中被判别到类t的所有x的事后概率之和,称为无分层概率之和。第二个公式表示从类i中被判别到类t的所有x的事后概率之和,称为无分层概率之和。第一个公式定义的错误率为无分层事后概率错误率,第二个公式定义的错误率为分层事后概率错误率。当事前概率和类内样本数成比例时,这两个错误率相等。,BAYES,参数分析法的判别准则效能评估,对于一个估计的BAYES判别准则,错判率和事后概率错误率越小,判别准则越准确可靠。当被判别的新样本与样本独立时,这两种错误率估计是非偏的。但是,当新样本数很小时,可能会产生很大的变异,这时,事后概率错误率估计值有时会小于0。因此,为了得到一个有效的错误率估计,被判别的数据中样本数不应当太小,且类内样本数比例应当接近类内事前概率。,BAYES,参数分析法的判别准则效能评估,总之,评估一个判别函数的判别效能,涉及到以下几方面:,原数据的分类要可靠准确;,指标变量对判别函数的作用要显著;,错判率和事后概率错误率要适当小。,判别分析,SAS,程序,SAS,系统里用来进行判别分析的过程步有,DISCRIM,过程步、,STEPDISC,过程步和,CANDISC,过程步。,CANDISC,过程步用来进行正交判别分析。正交判别分析是一种减少维数(指标个数)的判别分析,作用类似于主成分分析。较常用的过程步是,DISCRIM,过程步和,STEPDISC,过程步,它们的区别是后者仅用来筛选指标变量,且仅适用于类内为多元正态分布,具有相同方差协方差矩阵的数据。前者可以筛选指标,但适用于各种数据,且类内为多元正态分布时,不要求具有相同方差协方差矩阵。一般地,当指标变量较多时,将两者结合使用:首先使用,STEPDISC,过程步筛选指标变量,然后用,DISCRIM,过程步将筛选出来的指标变量建立判别函数。,本章小节,判别分析的基本思想是根据一批分类明确的样本在若干指标上的观察值,建立一个关于指标的判别函数和判别准则,然后根据这个判别函数和判别准则对新的样本进行分类,并且根据回代判别的准确率评估它的实用性。它有着广泛的应用价值,尤其在计算机疾病辅助诊断等医学科学研究中起了重要作用。,判别函数是一个关于指标变量的函数。每一个样本在指标变量上的观察值代入判别函数后可以得到一确定的函数值,将所有样本按其函数值的大小和事先规定的判别原则分到不同的组里,并使得分组结果与原样本归属最吻合。这就是判别分析方法的基本过程。,本章小节,判别分析的方法中较常使用的有,Bayes,判别分析法和,Fisher,判别分析法。,Fisher,判别分析法是以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类;而,Bayes,判别分析法是以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类。前者仅适用于两类判别,后者适用于多类判别。,对于,BAYES,参数分析法的判别准则效能的评估,常用的是两个错误率估计指标。一个为错判率估计,另一个为事后概率错误率估计。错误率估计是从回代过程得到的结果,类内错判率等于类内被错判的样本数所占的比例。,本章小节,SAS,系统里用来进行判别分析的过程步有,DISCRIM,过程步、,STEPDISC,过程步和,CANDISC,过程步。,CANDISC,过程步用来进行正交判别分析。正交判别分析是一种减少维数(指标个数)的判别分析,作用类似于主成分分析。较常用的过程步是,DISCRIM,过程步和,STEPDISC,过程步,它们的区别是后者仅用来筛选指标变量,且仅适用于类内为多元正态分布,具有相同方差协方差矩阵的数据。一般地,当指标变量较多时,将两者结合使用:首先使用,STEPDISC,过程步筛选指标变量,然后用,DISCRIM,过程步将筛选出来的指标变量建立判别函数。,第,20,章 典型相关分析,学习目标,了解典型相关分析的数学表达方式,假定条件;,熟悉典型相关系数的数学含义;,掌握典型变量系数的数学含义;,掌握简单相关,复相关和典型相关的意义;,掌握典型相关分析的SAS过程步:CANCORR过程步。,概述,对于两个变量,是用它们的相关系数来衡量它们之间的线性相关关系的。当考虑一个变量与一组变量的线性相关关系时,是用它们的多重相关系数来衡量。但是,许多医学实际问题中,常常会碰到两组变量之间的线性相关性研究问题。例如,教育研究者想了解,3,个学术能力指标与,5,个在校成绩表现之间的相关性;对于这类问题的研究引进了典型相关系数的概念,从而找到了揭示两组变量之间线性相关关系的一种统计分析方法,典型相关分析。,典型相关,典型关系分析是分析两组变量之间相关性的一种统计分析方法,它包含了简单的,Pearson,相关分析(两个组均含一个变量)和复相关分析(一个组含有一个变量,而另一组含有多个变量)这两种特殊情况。典型相关分析的基本思想和主成分分析的基本思想相似,它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究,并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。,典型相关,典型相关分析方法的基本原理是:所有研究的两组变量为x组和y组,x 组有p个变量 ,y 组有q个变量 ,则分别对这两组变量各做线性组合后,再计算此两加权和的简单相关系数,然后以这个简单相关系数当做这两组变数之间相关性的衡量指标。即,典型相关,对于任意一组系数 和 都可以通过上式求出一对典型变量,典型相关分析中称之为典型变量。进而可以求出典型变量的简单相关系数,称之为典型相关系数。,x 组的p个变量组合成一个,y组的q个变量也组合成一个,然后计算简单相关来衡量两组之间的相关性。问题是如何组合?,典型相关,设两组变量分别为,x,组有,p,个变量 ,而,y,组有,q,个变量 ,我们先分别把,x,组和,y,组的变量组合起来(当然是用线性组合),也就是,其中这些系数都是一些常数,就是组合的比例,由于是线性组合,所以 且 。,典型相关,有两个问题需要解决:,给定不同组合比例 以及 ,都可以算出不一样的简单相关系数,这使得这个方法非常的不科学,每个人都可以依照自己的喜好来决定组合比例,并且在衡量两组变量之间相关性的问题上,也没有一个统一的标准。,各组内变量之间的尺度不太相同,例如身高的尺度跟脚掌长度的尺度就不相同,显然前者的变异数会大于后者,这种情况是不合理的。,典型相关,针对第一个问题,“在所有的组合中,寻找一个组合使得简单相关系数为最大”,可能是个好想法;另外,寻找一个组合使得简单相关系数为最小,此简单相关系数就是典型相关系数,而典型相关系数的平方称为典型根。,典型相关,对于第二个问题,解决的方法就是对资料进行标准化。,典型相关分析的第一步是估计组合系数,使得对应的典型变量和的相关系数达到最大。这个最大的相关系数是第一典型相关系数,且称具有最大相关系数的这对典型变量为第一典型变量。,典型相关,典型相关分析的第二步是再次估计组合系数,使得对应的典型变量相关系数达到第二大,且第二对典型变量中的第一次变量与第一对典型变量中的每一个变量不相关。这个最二大的相关系数是第二典型相关系数,且称具有最二大相关系数的这对典型变量和为第二典型变量。,如果两个组中变量的个数为,p,,,q,,,p,q,,那么寻求典型变量的过程可以一直连续进行下去,直到得到,p,对典型变量为止。,典型相关,从上述分析的过程可以看出,第一对典型变量的第一典型相关系数描述了两个组中变量之间的相关程度,且它提取的有关这两组变量相关性的信息量最多。第二对典型变量的第二典型相关系数也描述了两个组中变量之间的相关程度,但它提取的有关这两组变量相关性的信息量次多。以此类推,,典型相关,可以得知,由上述方法得到的一系列典型变量的典型相关系数所包含的有关原变量组之间相关程度的信息一个比一个少。如果少数几对典型变量就能够解释原数据的主要信息,特别是如果一对典型变量就能够反映出原数据的主要信息,那么,对两个变量组之间相关程度的分析就可以转化为对少数几对或者是一对典型变量的简单相关分析。这就是典型相关分析的主要目的。,典型相关分析的理论架构,设两组变量分别为x组有p个变量 ,而y组有q个变量 ,典型相关分析是找x组的线性组合 与y组的线性组合 ,使得简单相关系数为最大,其中,典型相关分析的理论架构,设x组的共变异数矩阵为 ,y组的共变异数矩阵为 ,x与y的共变异数矩阵为 ,则 的变异数为,的变异数为,共变异数为,典型相关分析的理论架构,典型变量的系数称为典型权重,权重愈大表示此变量对此典型变量的贡献愈大。在以上的计算中,此权重为标准化后的资料所得的,故k个资料的第i 典型变量得点为,冗余分析,冗余分析是通过原始变量与典型变量间的相关性,分析引起原始变量变异的原因。以原始变量为因变量,以典型变量为自变量,建立线性回归模型,则相应的确定系数等于因变量与典型变量间的相关系数的平方,它描述了由于因变量与典型变量的线性关系引起的因变量变异在因变量的总变异中的比例。,典型负荷为变量与典型变量的相关系数,可由相关系数的平方了解此典型变量解释了此变量多少比例的变异数。,CANCORR过程,SAS,系统中利用,CANCORR,过程步进行典型相关分析。,CANCORR,过程的语法格式如下:,PROC CANCORR DATA=OUTSTAT=OUT=ALL;,VAR,一组变量,;,WITH,另一组变量,;,PARTIAL,变量,;,RUN;,CANCORR过程,DATA语句指定要分析的数据集名及一些选项,它可以是原SAS数据集,也可以是corr、cov、ucorr、ucov等矩阵。,ALL选择项指令输出所有结果。,CORR选择项指令输出原始变量间的相关系数矩阵。,VP选择项用来为VAR语句中变量的典型变量命名前缀,名字不超过40个字符串长。,CANCORR过程,WP,选择项用来为,WITH,语句中变量的典型变量命名前缀,名字不超过,40,个字符串长。,EDF,选择项用来指定该回归分析的残差自由度。,VAR,语句列出两组变量中的第一组变量。若缺省,则所有不出现在其它语句中的数值变量均将列在第一组内。,WITH,语句列出两组变量中的第二组变量。该语句不能省略。,PARTIAL,语句用来指定协变量。系统以此协变量来计算偏相关系数矩阵,然后进行典型相关分析。,另外,,freq,语句、,weight,语句、,by,语句等也实用。,本章小节,典型相关分析的基本思想和主成分分析的基本思想相似,它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究,并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。典型相关分析方法的基本原理是:所有研究的两组变量为,x,组和,y,组,,x,组有,p,个变量 ,,y,组有,q,个变量 ,则分别对这两组变量各做线性组合后,再计算此两加权和的简单相关系数,然后以这个简单相关系数当做这两组变数之间相关性的衡量指标。,本章小节,有典型相关分析得到的一系列典型变量的典型相关系数所包含的有关原变量组之间相关程度的信息一个比一个少。如果少数几对典型变量就能够解释原数据的主要信息,特别是如果一对典型变量就能够反映出原数据的主要信息,那么,对两个变量组之间相关程度的分析就可以转化为对少数几对或者是一对典型变量的简单相关分析。这就是典型相关分析的主要目的。,本章小节,冗余分析是通过原始变量与典型变量间的相关性,分析引起原始变量变异的原因。以原始变量为因变量,以典型变量为自变量,建立线性回归模型,则相应的确定系数等于因变量与典型变量间的相关系数的平方,它描述了由于因变量与典型变量的线性关系引起的因变量变异在因变量的总变异中的比例。,通过实例详细介绍了,CANCORR,过程步的语法及基本格式,并阐述了如何利用此,SAS,过程步进行典型相关分析以及进行结果解释。,此课件下载可自行编辑修改,供参考!,感谢您的支持,我们努力做得更好!,
展开阅读全文