1、一、系统聚类的基本思想系系统统聚聚类类的基本思想是:距离相近的的基本思想是:距离相近的样样品(或品(或变变量)量)先聚成先聚成类类,距离相,距离相远远的后聚成的后聚成类类,过过程一直程一直进进行下行下去,每个去,每个样样品(或品(或变变量)量)总总能聚到合适的能聚到合适的类类中。系中。系统统聚聚类过类过程是:假程是:假设总设总共有共有n n个个样样品(或品(或变变量),量),第一步将每个第一步将每个样样品(或品(或变变量)独自聚成一量)独自聚成一类类,共有,共有n n类类;第二步根据所确定的;第二步根据所确定的样样品(或品(或变变量)量)“距离距离”公式,把距离公式,把距离较较近的两个近的两个
2、样样品(或品(或变变量)聚合量)聚合为为一一类类,其它的,其它的样样品(或品(或变变量)仍各自聚量)仍各自聚为为一一类类,共,共聚成聚成n n 1 1类类;第三步将;第三步将“距离距离”最近的两个最近的两个类进类进一一步聚成一步聚成一类类,共聚成,共聚成n n 2 2类类;,以上步,以上步骤骤一直一直进进行下去,最后将所有的行下去,最后将所有的样样品(或品(或变变量)全聚成一量)全聚成一类类。为为了直了直观观地反映以上的系地反映以上的系统统聚聚类过类过程,可以把程,可以把整个分整个分类类系系统统画成一画成一张谱张谱系系图图。所以有。所以有时时系系统统聚聚类类也称也称为谱为谱系分析。除系系分析。
3、除系统统聚聚类类法外,法外,还还有有序聚有有序聚类类法、法、动态动态聚聚类类法、法、图论图论聚聚类类法、模糊聚法、模糊聚类类法等,限法等,限于篇幅,我于篇幅,我们们只介只介绍绍系系统统聚聚类类方法。方法。二、类间距离与系统聚类法在在进进行系行系统统聚聚类类之前,我之前,我们们首先要定首先要定义类义类与与类类之之间间的距离,由的距离,由类间类间距离定距离定义义的不同的不同产产生了不同的系生了不同的系统统聚聚类类法。常用的法。常用的类间类间距离定距离定义义有有8 8种之多,与之相种之多,与之相应应的系的系统统聚聚类类法也有法也有8 8种,分种,分别为别为最短距离法、最最短距离法、最长长距距离法、中
4、离法、中间间距离法、重心法、距离法、重心法、类类平均法、可平均法、可变类变类平平均法、可均法、可变变法和离差平方和法。它法和离差平方和法。它们们的的归类归类步步骤骤基基本上是一致的,主要差异是本上是一致的,主要差异是类间类间距离的距离的计计算方法不算方法不同。以下用同。以下用d dij ij表示表示样样品品X Xi i与与X Xj j之之间间距离,用距离,用D Dij ij表示表示类类G Gi i与与G Gj j之之间间的距离。的距离。1.1.最短距离法最短距离法定定义类义类GiGi与与GjGj之之间间的距离的距离为为两两类类最近最近样样品的距离,品的距离,即即为为 (5.11)(5.11)设
5、设GkGk类类与合并成一个新与合并成一个新类记为类记为GrGr,则则任一任一类类与的距与的距离离为为 (5.12)(5.12)最短距离法最短距离法进进行聚行聚类类分析的步分析的步骤骤如下:如下:(1 1)定)定义样义样品之品之间间距离,距离,计计算算样样品的两两距离,品的两两距离,得一距离得一距离 阵记为阵记为D D(0 0),开始每个,开始每个样样品自成一品自成一类类,显显然然这这时时D Dij ij =d dij ij。(2 2)找出距离最小元素,)找出距离最小元素,设为设为D Dpqpq,则则将将G Gp p和和G Gq q合合并成一个并成一个 新新类类,记为记为G Gr r,即,即G
6、Gr r =G Gp p,G Gq q。(3 3)按()按(5.125.12)计计算新算新类类与其它与其它类类的距离。的距离。(4 4)重复()重复(2 2)、()、(3 3)两步,直到所有元素。并)两步,直到所有元素。并成一成一类为类为 止。如果某一步距离最小的元素不止一个,止。如果某一步距离最小的元素不止一个,则对则对应这应这些些 最小元素的最小元素的类类可以同可以同时时合并。合并。【例例5.15.1】设设有六个有六个样样品,每个只品,每个只测测量一个指量一个指标标,分,分别别是是1 1,2 2,5 5,7 7,9 9,1010,试试用最短距离法将它用最短距离法将它们们分分类类。(1 1)
7、样样品采用品采用绝对值绝对值距离,距离,计计算算样样品品间间的距离的距离阵阵D D(0 0),见见表表5.15.1表5.1(2 2)D D(0 0)中最小的元素是中最小的元素是D D1212D D56561 1,于是将,于是将G G1 1和和G G2 2合合并成并成G G7 7,G G5 5和和G G6 6合并成合并成G G8 8,并利用(,并利用(5.125.12)式)式计计算算新新类类与其与其它它类类的距离的距离D D(1 1),见见表表5.25.2表5.2 (3 3)在)在D D(1 1)中最小中最小值值是是D D3434D D48482 2,由于,由于G G4 4与与G G3 3合并,
8、合并,又与又与G G8 8合并,因此合并,因此G G3 3、G G4 4、G G8 8合并成一个新合并成一个新类类G G9 9,其与其其与其它它类类的距离的距离D D(2 2),见见表表5.35.3表5.3(4 4)最后将)最后将G G7 7和和G G9 9合并成合并成G G1010,这时这时所有的六个所有的六个样样品聚品聚为为一一类类,其,其过过程程终终止。止。上述聚上述聚类类的可的可视视化化过过程程见图见图5.15.1所示,横坐所示,横坐标标的刻度的刻度表示并表示并类类的距离。的距离。这这里我里我们应该们应该注意,聚注意,聚类类的个数的个数要以要以实际实际情况所定,其情况所定,其详细详细内
9、容将在后面内容将在后面讨论讨论。图5.1 最短距离聚类法的过程再找距离最小两再找距离最小两类类并并类类,直至所有的,直至所有的样样品全品全归为归为一一类为类为止。可以看出最止。可以看出最长长距离法与最短距离法只有两距离法与最短距离法只有两点不同:点不同:一是一是类类与与类类之之间间的距离定的距离定义义不同;不同;另一是另一是计计算新算新类类与其它与其它类类的距离所用的公式不同。的距离所用的公式不同。3.3.中中间间距离法距离法最短、最最短、最长长距离定距离定义义表示都是极端情况,我表示都是极端情况,我们们定定义义类间类间距离可以既不采用两距离可以既不采用两类类之之间间最近的距离也不采最近的距离
10、也不采用两用两类类之之间间最最远远的距离,而是采用介于两者之的距离,而是采用介于两者之间间的的距离,称距离,称为为中中间间距离法。距离法。中中间间距离将距离将类类G Gp p与与G Gq q类类合并合并为类为类G Gr r,则则任意的任意的类类G Gk k和和G Gr r的距离公式的距离公式为为 (1 14 4 0 0)(5.15)(5.15)设设D DkrkrD Dkpkp,如果采用最短距离法,如果采用最短距离法,则则D Dkrkr =D Dkpkp,如果采用如果采用最最长长距离法,距离法,则则D Dkrkr =D Dkqkq。如。如图图5.25.2所示,所示,(5.15)(5.15)式式就
11、是取它就是取它们们(最(最长长距离与最短距离)的中距离与最短距离)的中间间一点作一点作为计为计算算D Dkrkr的根据。的根据。特特别别当当 =1 14 4,它表示取中,它表示取中间间点算距离,公式点算距离,公式为为 (5.16)(5.16)图5.2 中间距离法 【例例5.25.2】针对针对例例5.15.1的数据,的数据,试试用重心法将它用重心法将它们们聚聚类类。(1 1)样样品采用欧氏距离,品采用欧氏距离,计计算算样样品品间间的平方距离的平方距离阵阵D D2 2(0 0),见见表表5.45.4所示。所示。表5.4(2 2)D D2 2(0 0)中最小的元素是中最小的元素是D D2 21212
12、D D2 256561 1,于是将,于是将G G1 1和和G G2 2合合并成并成G G7 7,G G5 5和和G G6 6合并成合并成G G8 8,并利用(,并利用(5.185.18)式)式计计算新算新类类与与其它其它类类的距离得到距离的距离得到距离阵阵D D2 2(1 1),见见表表5.55.5:其中,其中,其它其它结结果果类类似可以求得似可以求得 (3 3)在)在D D2 2(1 1)中最小中最小值值是是D D2 234344 4,那么,那么G G3 3与与G G4 4合合并一个新并一个新类类G G9 9,其与与其它,其与与其它类类的距离的距离D D2 2(2 2),见见表表5.65.6
13、:表5.6(4 4)在中最小)在中最小值值是是12.512.5,那么与合并一个新,那么与合并一个新类类,其与与其与与其它其它类类的距离,的距离,见见表表5.75.7:表5.7(5 5)最后将)最后将G G7 7和和G G1010合并成合并成G G1111,这时这时所有的六个所有的六个样样品品聚聚为为一一类类,其,其过过程程终终止。止。上述重心法聚上述重心法聚类类的可的可视视化化过过程程见图见图5.35.3所示,横坐所示,横坐标标的刻度表示并的刻度表示并类类的距离。的距离。图5.3 重心聚类法的过程6.6.可可变类变类平均法平均法由于由于类类平均法中没有反映出平均法中没有反映出G Gp p和和G
14、 Gq q之之间间的距离的距离D Dpqpq的的影响,影响,因此将因此将类类平均法平均法进进一步推广,如果将一步推广,如果将G Gp p和和G Gq q合并合并为为新新类类G Gr r,类类G Gk k与新并与新并类类G Gr r的距离公式的距离公式为为:(5.225.22)其中其中 是可是可变变的且的且 11,称,称这这种系种系统统聚聚类类法法为为可可变变类类平均法。平均法。8.8.离差平方和法离差平方和法该该方法是方法是WardWard提出来的,所以又称提出来的,所以又称为为WardWard法。法。该该方法的基本思想来自于方差分析,如果分方法的基本思想来自于方差分析,如果分类类正确,正确,
15、同同类样类样品的离差平方和品的离差平方和应应当当较较小,小,类类与与类类的离差平的离差平方和方和较较大。具体做法是先将大。具体做法是先将n n个个样样品各自成一品各自成一类类,然后每次然后每次缩缩小一小一类类,每,每缩缩小一小一类类,离差平方和就要,离差平方和就要增大,增大,选择选择使方差增加最小的两使方差增加最小的两类类合并,直到所有合并,直到所有的的样样品品归为归为一一类为类为止。止。设设将将n n个个样样品分成品分成k k类类G G1 1,G G2 2,G Gk k,用,用X Xit it表示表示G Gt t中的第中的第I I个个样样品,品,n nt t表示表示G Gt t中中样样品的个
16、数,品的个数,是是G Gt t的重心,的重心,则则G Gt t的的样样品离差平方和品离差平方和为为 这这种系种系统统聚聚类类法称法称为为离差平方和法或离差平方和法或WardWard方法。下方法。下面面论证论证离差平方和法的距离离差平方和法的距离递递推(推(5.265.26)式。)式。由于由于 三、类间距离的统一性上述八种系上述八种系统统聚聚类类法的步法的步骤骤完全一完全一样样,只是距离的,只是距离的递递推公式不同。推公式不同。兰兰斯(斯(LanceLance)和威廉姆斯)和威廉姆斯(WilliamsWilliams)于)于19671967年年给给出了一个出了一个统统一的公式。一的公式。(5.2
17、8)(5.28)其中其中a ap p、a aq q、是参数,不同的系是参数,不同的系统统聚聚类类法,法,它它们们取不取不同的数,同的数,详见详见表表5.85.8。这这里里应该应该注意,不同的聚注意,不同的聚类类方法方法结结果不一定完全相果不一定完全相同,一般只是大致相似。如果有很大的差异,同,一般只是大致相似。如果有很大的差异,则应则应该该仔仔细细考考查查,找到,找到问题问题所在;另外,可将聚所在;另外,可将聚类结类结果果与与实际问题对实际问题对照,看哪一个照,看哪一个结结果更符合果更符合经验经验。表5.8 系统聚类法参数表【例例5.35.3】假定我假定我们对们对A A、B B、C C、D D
18、四个四个样样品分品分别测别测量两个量两个变变量和得到量和得到结结果果见见表表5.95.9。试试将以上的将以上的样样品聚成两品聚成两类类。表5.9 样品测量结果动态聚类法第一步:按要求取第一步:按要求取K=2K=2,为为了了实实施均施均值值法聚法聚类类,我,我们们将将这这些些样样品随意分成两品随意分成两类类,比如(,比如(A A、B B)和()和(C C、D D),然后),然后计计算算这这两个聚两个聚类类的中心坐的中心坐标标,见见表表5.105.10所示。所示。表表5.105.10中的中心坐中的中心坐标标是通是通过过原始数据原始数据计计算得来的,算得来的,比如(比如(A A、B B)类类的,的,
19、等等等。等。表5.10 中心坐标第二步:第二步:计计算某个算某个样样品到各品到各类类中心的欧氏平方距离,中心的欧氏平方距离,然后将然后将该样该样品分配品分配给给最近的一最近的一类类。对对于于样样品有品有变动变动的的类类,重新,重新计计算它算它们们的中心坐的中心坐标标,为为下一步聚下一步聚类类做做准准备备。先。先计计算算A A到两个到两个类类的平方距离:的平方距离:由于由于A A到(到(A A、B B)的距离小于到()的距离小于到(C C、D D)的距离,)的距离,因此因此A A不用重新分配。不用重新分配。计计算算B B到两到两类类的平方距离:的平方距离:由于由于B B到(到(A A、B B)的
20、距离大于到()的距离大于到(C C、D D)的距离,)的距离,因此因此B B要分配要分配给给(C C、D D)类类,得到新的聚,得到新的聚类类是是(A A)和()和(B B、C C、D D)。更新中心坐)。更新中心坐标标如表如表5.115.11所示。所示。表5.11 更新后的中心坐标 第三步:再次第三步:再次检查检查每个每个样样品,以决定是否需要重品,以决定是否需要重新分新分类类。计计算各算各样样品到各中心的距离平方,得品到各中心的距离平方,得结结果果见见表表5.125.12。到到现现在在为为止,每个止,每个样样品都已品都已经经分配分配给给距离中心最近的距离中心最近的类类,因此聚因此聚类过类过程到此程到此结结束。最束。最终终得到得到K=2K=2的聚的聚类结类结果是果是A A独独自成一自成一类类,B B、C C、D D聚成一聚成一类类。表5.12 样品聚类结果