第十二章非参数判别分析与非参数聚类.doc

资源描述

第十二章非参数判别分析与非参数聚类第一节非参数判别分析一、引言关于判别分析的一般概念我们在多元统计分析中已经详细的讨论，在那里我们采用了距离判别、贝叶斯判别和典型判别法。这些判别法都需要估计总体的参数，而贝叶斯判别时，我们还指定了总体服从正态分布。在非参数统计中，不对变量的分布做任何假设，这里主要有两种方法，BAYES方法和近邻方法进行非参数判别分析。设有M个类，用Y记一具体的对象所属的类，Y可能的取值为.设有了n个经过明确判定的样本,第i个样本的指标为，所属的类为,n个样本记，常称为“训练样本”。这一名称的来由使因为日后进行的判别工作依赖,因此可以说它们“训练了”人们如何取进行判别。非参数方法是基于组概率密度函数的非参数估计.每组的非参数密度估计核产生的分类准则采用核方法或k最近邻方法。马氏距离或欧氏距离用来确定样品的接近程度。二、核方法 1、Bayes方法概念设有M个总体分别具有概率分布密度，出现M个总体的先验概率分别为，，。贝叶斯判别的规则将样品判给最大的类，即如果,判 2、Bayes方法和密度函数估计的联系在非参数判别中,通常完全未知，有时未知。一个直观的想法是直接估计和，然后将得到的估计代入判别规则中进行计算。具体的步骤是：如果已知某事物可分为M个总体：…,，该事物的特性P个指标描述，在进行分析之前,已观察到在各个总体的样本. ， …， …，为维密度函数，为窗宽，总体密度函数的一个核估计可以表示为: 其中, 将估计出的先验概率和密度函数代入判别规则中,得到后验概率，进行比较。使用该估计需要一个前提，即全部训练样本是从大的总体中随机抽样取得的，否则便没有意义了。现设当时，X的条件分布有概率密度函数，，则的边缘分布为。已知时，的条件概率为判别规则为 ,判，判三、K近邻方法 1、概念记样本，要由样品指标x去判别其所属的类Y,Y可能的取值为。将按其与X的距离排列,如，距离相等时,按足标小的在前的原则处理.指定一个介于1到n之间的自然数k，挑出最接近X的k个，即,与他们匹配的Y是。定义：以记为中等于的个数。定义判别函数如下：若是中的唯一最大者，则定义;若中有若干个同时达到最大者,比方说是,则再按等概率在中确定一个为。 2、近邻方法与概率密度的最近邻估计的关系用近邻方法估计估计密度函数的方法是，先固定一个介于1到n之间的自然数,对任何，计算，然后的密度函数估计和先验概率的估计为: 判别规则为: ，判，等价的判别函数，则判四、SAS/DISCRIM过程中的非参数判别的选项非参数判别方法是基于组概率密度的非参数估计。每组的非参数密度估计和产生的分类准则采用核方法和K最近邻方法得到. 马氏和欧氏距离能够用来确定接近的程度.采用k最近邻方法时,马氏距离基于合并协方差阵；采用核方法时，马氏距离基于单个组那方差矩阵或合并协方差阵。实际上某个检验样品的归类基于由训练集得到的估计组密度。从估计密度，x术语各组的喉炎概率得到评估。观测x盼归第t组是因为p(t/x）最大。 METHOD=NPAR-—采用非参数判别方法。 -—为最近邻方法指定一个值。观测x分如一个组基于从x的k个最劲力得到的信息. ——为核密度估计指定一个半径r。注意，不能同时选用K=选项与R＝选项。 KERNEL=BIWEIGHT\BIW或 EPANECHNIKOV\EPA或TRIWEIGHT\TRI或UNIFORM\UNI-—为估计组密度指定一个核密度，缺省为KERNEL=UNIFORM\UNI。 METRIC=DIAGONAL|FULL｜IDENTITY——为平方距离的计算指定度量.缺省为METRIC= FULL。第二节非参数聚类分析非参数聚类过程利用某种基于非参数密度估计的算法对观测得到的数据进行分类。Sas的modeclus模块产生的数据集包括密度估计和聚类的结果，一系列的统计量，其中包括近似的p值,以及用不同的算法，不同的光滑参数和不同的显著性水平得到的结果。我们知道，密度最大的数是众数,及mode。非参数聚类方法，类是由概率密度函数的众数定义的，一个类大致可以定义为概率密度函数的一个局部最大点附近的区域.给定一个足够大的样本，非参数分析方法可以不同大小,不同分散程度和形状极不规则的类。非参数聚类分析方法对找出具有相同大小和分散程度的类效果也好。一、问题的引入如下虚构的数据进行分类 data a； inout x y ＠@; cards; 18 18 20 22 21 20 12 23 17 12 23 25 25 20 16 27 20 13 28 22 80 20 75 19 77 23 81 26 55 21 64 24 72 26 70 35 75 30 78 42 18 52 27 57 41 61 48 64 59 72 69 72 80 80 31 53 51 69 72 81 ; option ps=35 ls=78; proc plot； plot y*x/hpos=52 vaxis=0 to 80 by 20； run; 从散点图上看有三类,其中，左下角的类最紧,右下角的类要分散些，上边的类拉得很长，如果我们进行系统聚类，很难把它们聚为一类。二、密度估计为了方便起见，可以把以观测点为中心的球称为的邻域，在的邻域内的观测点称为的近邻点。：第个维的观测点；：和的距离；：样本容量； :在的邻域内的观测点数（含本身）；：在的邻域内的观测点数（不含本身）； :在的邻域内的观测的指标集(含本身）； :在的邻域内的观测的指标集（不含本身); ：的近邻的体积；：在处的密度估计值; :在处的交叉确认密度估计值；：被分配到类的观测点的指标集 :变量的维数；：第个变量的方差; 的密度的估计值为：即以该点为中心的球内的所含观测个数与样本容量的比值乘以球的体积。非参数密度估计使用球均匀核,球半径是固定的，也可以是可变的。在某点的密度估计值是以该点为中心的球内所含观测值除以样本量和球的体积。球的大小由光滑参数确定,光滑参数自定,通常要试几个光滑参数. 三、SAS的非参数聚类过程类的个数是光滑参数的函数，在光滑参数增大时,类的个数由减小的趋势，但不是严格单调下降的.一般来说应该指定几个不同的光滑参数，看看类的个数的变化。 SAS的MODECLUS过程使用的聚类方法采用固定的或可变半径的球型核进行密度估计相似。对固定半径邻域,用选项CR＝或R＝指定半径值作为欧氏距离.对可变半径邻域，用选项CK＝或K＝指定在球内要求的相邻点数。 METHOD＝n 参考SAS/STAT软件使用手册P.681 是为了指定使用哪种聚类分析方法。共有7种，0—6种。多数情况下选择METHOD＝1和METHOD＝6. 1、 METHOD=0 最初把每个观测当作一个单独的类。如果一个类中有一个观测是另一个中某个观测的相邻点，则把两个类合并。该方法没有用密度估计.对固定的类半径，这些类可以通过最短距离的树状图在指定的半径上切割。 METHOD＝1。最初把每个观测当作一个单独的类。对每一个观测点,找估计密度较大的最近的相邻点.如果这样的相邻点存在,则把观测值点所属的类和指定的相邻点所属的类合并.接着考虑这样一些观测点，其估计密度等于某些相邻点的估计密度但不小于任何相邻点的估计密度,然后合并含有这样观测的类： ① 每个类含有该观测的一个相邻点,使得在这类内最大密度估计等于在那个观测上的密度估计；② 这个类包含观测的相邻点，使得这类内的最大密度估计超过在这观测上的密度估计. METHOD＝2。最初把每个观测当作一个单独的类。对每一个观测点，找估计密度最大的且超过该观测点其密度估计的最近的相邻点。如果这样的相邻点存在，则把观测值点所属的类和指定的相邻点所属的类合并。接着考虑这样一些观测点,其估计密度等于某些相邻点的估计密度但不小于任何相邻点的估计密度，然后合并含有这样观测的类。 METHOD＝3。最初把每个观测当作一个单独的类。对于观测点,找出相邻点，使得达到最大值。如果斜率是正的,则合并观测所属的类和观测所属的类。然后考虑这样一些观测点，其估计密度等于某些相邻点的估计密度但不小于任何相邻点的估计密度，与METHOD=1相同的处理方法。 METHOD＝4。等价于两阶段密度估计法。 METHOD＝5.等价于两阶段密度估计法. METHOD＝6.开始时所有观测都没有分类。第一步：找到一些种子，每个种子是一个单独的观测点，在，在这一点的密度估计不小于它的任何相邻点的密度估计。如果规定选项MAXCLUSTERS=n,则只保留n个密度估计最大的种子。第二步：以密度估计由大到小的顺序逐个考虑每个种子: 1）如果当前这个种子已被分配,则考虑下一个种子。否则形成一个包含当前这个种子的新类。 2)如果有某个未被分配的种子是这个类中一个成员的相邻点，或者与某个成员有共同的相邻点,则把这个种子加入这个类；重复这个步骤直到没有未被分配的种子满足这个条件为止. 3）如果一些种子属于这个类,则把这些种子的所有相邻点加入这个类. 4)考虑每个没有被分配的观测点。计算属于当前类的相邻点的密度估计的p—1次幂的和与它的所有相邻点密度估计的p—1次幂的和的比率，其中P是由选项POWER＝指定的值，缺省是为2。设是当前观测点，K是当前类的指标，计算比值如果这个比值超过0.5，而且超过THRESHOLD＝指定的值，则个观测值归到到第k个类。重复这个步骤直至没有未被分配的种子满足该条件为止。第三步：以密度估计由小到大的顺序把没有分配的观测点排成一类,然后重复下面的步骤: 1）去掉这个序列中的第一个观测点，比如说是。 2）对每个k,计算。 3）如果这些的最大值超过THRESHOLD＝指定的值,则把归于相应类。 SAS程序： PROC MODECLUS 〈 options > ； BY variables ； FREQ | FREQUENCY variable ; ID variable ； VAR | VARIABLES variables ;

展开阅读全文