《数据挖掘》课件第5章聚类.pdf

资源描述

1、数据挖掘高级大数据人才培养丛书之一，大数据挖掘技术与应用第五章聚类物以类聚，人以群分，聚类(C lustering)是人类认识世界的一种重要方法。所谓聚类就是按照事物的某些属性，把事物聚集成簇，使簇内的对象之间具有较高的相似性，而不同簇的对象之间的相似程度较差。高级大数据人才培养丛书之一，大数据挖掘技术与应用第五章聚类5.1聚类概述512划分方法513层次方法5：4基于密度的方法5.5实战：银行客户聚类分析习题，5.1聚类概述第五章聚类聚类(Clustering):就是将一组物理的或抽象的对象，根据它们之间的相似程度，分为若干簇，相似的对象构成一组。聚类可帮助用户理解数据集中的自然簇和

2、结构。簇(duster):聚在一起的一群对象，这些对象彼此相似.簇内对象距离最小，5.1聚类概述第五章聚类按照聚类分析算法主要思路的不同，聚类算法可以分为：划分方法、层次方法、基于密度的算法、基于网格的算法、基于模型的算法。Q）划分聚类方法。对于给定的数据集，划分聚类方法通过选择适当的初始代表点将数据样本进行初始聚类，之后通过迭代过程对聚类的结果进行不断的调整，直到使评价聚类性能的准则函数的值达到最优为止。（2）层次聚类方法。层次聚类方法将给定数据集分层进行划分，形成一个以各个聚类为结点的树型结构。层次聚类方法分为自底向上（凝聚型层次聚类）和自顶向下（分解型层次聚类）两种方式。

3、，5.1聚类概述第五章聚类(3)基于密度的聚类算法。云要演定区或的密/度0(对象或数据点的数目)超过某个阈值就继续聚类。也就是说，对给定类中的每个数据点，在一个给定范围的区域中必须至少包含某个数目的点。这样的方法可以用来过滤噪声和孤立点数据,发现任意形状的类。(4)基于网格的聚类算法。首先把对象空间划分成有限个单元的网状结构，所有的处理都是以单个单元为对象的。这种方法的主要优点是处理速度快，其处理时间独立于数据对象的数目，只与划分数据空间的单元数有关。(5)基于模型的算法。为每个簇假定一个模型，然后去寻找能够很好地满足这个模型的数据集。这样的算法经常基于这样的假定：数据集是由一系列

4、的概率分布所决定的。高级大数据人才培养丛书之一，大数据挖掘技术与应用第五章聚类5.1 聚类概述5.2 划分方法513层次方法5.4 基于密度的方法5.5实战：银行客户聚类分析习题，5.2划分方法第五章聚类对于给定的数据集，划分方法通过选择适当的初始代表点将数据样本进行初始聚类，通过迭代过程对聚类的结果进行不断地调整，直到使评价聚类性能准则函数的值达到最优为止。属于这样的聚类方法有：k均值(kmeans)k 中心点(k-medoids)等。划分方法的主要思想：给定一个包含n个数据对象的数据集，进行k个划分，每个划分表示一个簇(类)，并且kvn。簇要满足下列条件：每个簇至少包含一个对象；每

5、个对象属于且仅属于一个簇。对于给定的要构建的划分的数目匕划分方法首先给出一个初始的划分，然后采用一种迭代的重定位技术，尝试通过对象在划分间移动来改进划分，使得每一次改进之后的划分方案都较前一次更好。好的划分是指同一簇中的对象之间尽可能“接近”，在不同簇中的对象之间尽可能“远离”。5.2.1 k均值算法第五章聚类kmeans聚类算法是划分聚类方法中最常用、最流行的经典算法，许多其他的方法都是kmeans聚类算法的变种。kmeans聚类算法将各个聚类子集内的所有数据样本的均值作为该聚类的代表点，算法的主要思想是通过迭代过程把数据集划分为不同的类别，使得评价聚类性能的准则函数达到最优

6、，从而使生成的每个聚类类内紧凑，类间独立。kmeans聚类算法不适合处理离散型属性，但是对于连续型属性具有较好的聚类效果。5.2.1 k均值算法第五章聚类k均值算法的算法思想：从包含n个数据对象的数据集中随机的选择k个对象，每个对象初始的代表一个簇的平均值或质心或中心；对剩余的每个数据对象点根据其与各个簇中心的距离，将它指派到最近的簇；根据指派到簇的数据对象点，更新每个簇的质心；重复指派和更新步骤，直到簇不发生变化。k均值算法的目标函数E定义为k _E二ZW网闻f(5.3)d/=1 xeC/其中X是空间中的点，表示给定的数据对象，i懿q的数据对象的平均值，例如3 个二嚏点(1,3),(

7、2,1)和(6,2)的质心是(1+2+6)/3,(3+1+2)/3尸(3,2)，*工工)表示工与*之间的距离，这个目标函数可以保证生成的镁尽可能的紧凑和独立5.2.1 k均值算法第五章聚类算法5.1 k均值算法输入：所期望的簇的数目k,包含n个对象的数据集D输出：k个簇的集合1：从D中任意选择k个对象作为初始簇中心；2：repeat3：将每个点指派到最近的中心，形成k个簇；4：重新计算每个簇的中心；5：计算目标函数E；6：until目标函数E不再发生变化或中心不再发生变化;算法分析：k均值算法的步骤3和步骤4试图直接最小化目标函数E,步骤3通过将每个点指派到最近的中心形成簇，最小化关于给定

8、中心的目标函数E；而步骤4重新计算每个簇的中心，进一步最小化E。5.2.1 k均值算法第五章聚类k均值算法举例：假设要进行聚类的元组为2,4,10,12,3,20,30,11,25,假设要求的簇的数量为k=2。第一步：初始时用前两个数值作为簇的质心，这两个簇的质心记做：mi=2,m2=4；第二步：对剩余的每个对象，根据其与各个簇中心的距离，将它指派给最近的簇中，可得：C1=2=2,3,C2=4,10,12,20,30,11,25；第三步:计算簇的新质心：=(2+3)/2=25 m2=(4+10+12+20+30+11+25)/7=16;重新对簇中的成员进行分配可得C=2,3,4和C 2=1

9、0,12,20,30,11,25,不断重复这个过程，均值不再变化时最终可得到两个簇：C=2,3,4,10,11,12和 C2=20,305 25o5.2.2 k中心点算法第五章聚类k均值算法对离群数据对象点是敏感的，一个极大值的对象可能在相当大的程度上扭曲数据的分布。目标函数(5.3)的使用更是进一步恶化了这一影响。k中心点算法：在每个簇中选出一个最靠近均值的实际的对象来代表该簇，其余的每个对象指派到与其距离最近的代表对象所在的簇中。每次迭代后的簇的代表对象点都是从簇的样本点中选取，选取的标准就是当该样本点成为新的代表对象点后能提高簇的聚类质量，使得簇更紧凑。5.2.2 k中心点算法第五

10、章聚类k中心点算法使用绝对误差标准作为度量聚类质量的目标函数，其定义如下：kE 二工工 dgo）（54）7=1 xeCy其中，E是数据集中所有数据对象的绝对误差之和，x是空间中的点，代表簇C j中一个给定的数据对象，5是簇C j中的代表对象。如果某样本点成为代表对象点后，绝对误差能小于原代表对象点所造成的绝对误差，那么k 中心算法认为该样本点是可以取代原代表对象点的。通常，该算法重复迭代,直到每个代表对象都成为它的簇的实际中心点，或最靠中心的对象。5.2.2 k中心点算法第五章聚类P AM（围绕中心点的划分）是最早提出的k-中心算法之一，它尝试将n个对象划分出k类。P AM算法的主要思

11、想：首先为每个簇任意选择一个代表对象（即中心点），计算其余的数据对象与代表对象之间的距离，将其加入到最近的簇，接着反复尝试用更好的非代表对象点来替代代表数据对象点，以改进聚类的质量。在P AM算法中，可以把过程分为两个步骤：（1）建立：随机选择k个对象点作为初始的簇中心点；（2）交换：对所有可能的对象对进行分析，找到交换后可以使误差减少的对象，代替原中心点。5.2.2 k中心点算法第五章聚类算法5.2 P AM(k-中心点算法)输入：簇的数目k,包含n个对象的数据集D输出：k个簇，使得所有对象与其最近代表对象点的距离总和最小1：任意选择k个对象作为初始的簇中心点；2：将每个剩余对象指派给离

12、它最近的中心点所代表的簇；3：任意选择一个非中心对象orandom；4：计算用orandom代替中心对象的总代价S；5：如果S为负，则可以用orandom代替以构成新聚类的k个中心对象;6：重复(2)(3)(4)(5),直到每个簇不再发生变化为止。算法分析：k-中心点算法消除了k-平均算法对孤立点的敏感性；比k-平均算法更健壮。5.2.2 k中心点算法第五章聚类例5.2给定含有5个数据对象的数据集D,D中的对象为A、B、C、D、E,各对象之间的距离如表5-1所示，根据所给的数据对其运行k-medoids算法实现划分聚类（设k=2）。表5-1对象之间的距离样本点ABCDEA01223B102

13、43C22015D24103E33530算法按下面步骤执行：步骤1：假如从5个对象中随机选取 A、C作为初始聚类中心。步骤2：计算其它对象与中心对象之间的距离，将每个剩余对象指派给离它最近的中心点所代表的簇，通过查询表5-1可知：可得到2个划分为：A,B,E和C,Do步骤3：任选非中心对象B、D、E 分别与中心对象A、C交换，计算样本点的代价。高级大数据人才培养丛书之一，大数据挖掘技术与应用第五章聚类5.1 聚类概述5.2 划分方法5.3 层次方法514基于密度的方法5.5 实战：银行客户聚类分析习题5.3.1层次方法的分类第五章聚类层次聚类方法有两种：(1)自底向上的凝聚层次聚类方

14、法。首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有的对象都在一个簇中，或者达到了某个终止条件。绝大多数的层次聚类方法都属于这一类，只是在簇间相似度的定义上有所不同。凝聚层次聚类算法的代表是AGNES算法。(2)自顶向下的分裂层次聚类方法。它首先将所有对象置于一个簇中，然后逐渐细分为越来越小的簇，直到每个对象自成一簇，或者达到了某个终止条件，例如达到了某个希望的簇数目，或者两个最近的簇之间的距离超过了某个阈值。分裂层次聚类算法的代表是DIANA算法。5.3.1层次方法的分类第五章聚类下图描述了一种凝聚层次聚类算法AGNES和一种分裂层次聚类算法DIANA对一个

15、包含五个对象的数据集合a,b,c,d,e的处理过程。步骤0 步骤1 步骤2 步骤3 步骤4凝聚(AGNES)分裂(DIANA)步骤4 步骤3 步骤2步骤1 步骤0图5-2对数据对象a,b,c,d,e的凝聚和分裂层次聚类5.3.1层次方法的分类第五章聚类AGNES将每个对象自为一簇，然后这些簇根据某种准则逐步合并，直到所有的对象最终合并形成一个簇。例如，如果簇C 1中的一个对象和簇C 2中的一个对象之间的距离是所有属于不同簇的对象间欧氏距离中最小的，则C 1和C 2合并。在DIANA中，所有的对象用于形成一个初始簇。根据某种原则（如，簇中最近的相邻对象的最大欧氏距离），将该簇分裂。簇的分裂

16、过程反复进行，直到最终每个新簇只包含一个对象。在凝聚或者分裂层次聚类方法中，用户可以定义希望得到的簇数目作为一个终止条件。，5.3.1簇间距离度量方法第五章聚类四个广泛采用的簇间距离度量方法如下，其中Ip-pI是数据对象集中两个对象或点p和p之间的距离，叫是簇仇的均值,而是簇a中对象的数目。（D簇间最小距离：是指用两个簇中所有数据点的最近距离代表两个簇的距离。（2）簇间最大距离：是指用两个簇所有数据点的最远距离代表两个簇的距离。5.3.1簇间距离度量方法第五章聚类（3）簇间均值距离：是指用两个簇各自中心点之间的距离代表两个簇的距离。（4）簇间平均距离：是指用两个簇所有数据点间的距离的平均

17、值代表两个簇的距离。图5-5簇间均值距离示意图图5-6镶间平均距离示意图“，5.3.1 AGNES算法第五章聚类算法5.3 AGNES（自底向上凝聚层次聚类）输入：包含n个对象的数据集D,终止条件簇的数目k输出：k个簇1：将每个对象当成一个初始簇；2：repeat3：根据两个簇中最近的数据点找到最近的两个簇；4：合并两个簇，生成新的簇的集合；5：until达到定义的簇的数目算法分析：（1）简单，但遇到合并点选择困难的情况；（2）一旦一组对象被合并，不能撤销；（3）算法的复杂度为0（M）,不适合大数据集。，5.3.1 DIANA算法第五章聚类算法5.4 DIANA（自顶向下的分裂层次聚类）输

18、入：包含n个对象的数据集D,终止条件簇的数目k输出：k个簇1：将包含n个对象的数据集D当成一个初始簇；2：repeat3：在同类簇中找到距离最远的样本点对；4：以该样本点为代表，将原类簇中的样本点重新分属到这两个新簇中；5：until达到定义的簇的数目算法分析：（1）缺点是已做的分裂操作不能撤销，类之间不能交换对象；（2）如果在某步没有选择好分裂点，可能会导致低质量的聚类结果;（3）算法的复杂度为O（tM）,t为迭代次数，不适合大数据集。)5.3.2 BIRCH 算法第五章聚类BIRC H算法，首先用树结构对数据对象进行层次划分，其中叶节点或低层次的非叶节点可以看作是由分辨率决定的“微簇”

19、，然后使用其他的聚类算法对这些微簇进行宏聚类，它克服了凝聚聚类方法所面临的两个困难：可伸缩性；不能撤销前一步所做的工作。BIRC H算法最大的特点是能利用有限的内存资源完成对大数据集高质量地聚类,通过单遍扫描数据集最小化I/O代价。BIRC H算法使用聚类特征来概括一个簇，使用聚类特征树（C F树）来表示聚类的层次结构。这些结构帮助聚类方法在大型数据库中取得好的速度和伸缩性，还使得BIRC H算法对新对象增量和动态聚类也非常有效。)5.3.2 BIRCH 算法第五章聚类)5.3.2 BIRCH 算法第五章聚类聚类特征本质上是给定簇的统计汇总：从统计学的观点来看，它是簇的零阶矩、一阶矩和二

20、阶矩。使用聚类特征，可以很容易地推导出簇的许多有用的统计量，如簇的质心X。，半径R和直径D分别是：nn nV x.占 LS17_=_n nD=-n(n-Y)2/1SS-2LS2 n(n-1)(5.13(5.14(5.15)5.3.2 BIRCH 算法第五章聚类Bl RC H算法的特点:BIRC H算法试图利用可用的资源来生成最好的聚类结果，给定有限的主存，一个重要的考虑是最小化I/O时间。BIRC H算法采用了一种多阶段聚类方法：数据集的单边扫描产生了一个基本的聚类，一或多遍地额外扫描可以进一步改进聚类质量。BIRC H算法是一种增量的聚类方法，因为它对每一个数据点聚类的决策都是基于当

21、前已经处理过的数据点，而不是基于全局的数据点。如果簇不是球形的，BIRC H算法不能很好地工作，因为它使用了半径或直径的概念来控制聚类的边界。)5.3.2 BIRCH 算法第五章聚类算法5.5 BIRC H输入：数据集七，.，xj,阈值输出：m个簇1：for each/1,2,.,n2：将勺插入到与其最近的一个叶子节点中；3：if插入后的簇小于或等于阈值4：将巧插入到该叶子节点，并从新调整从根到此叶子路径上的所有三元组；5：else if插入后节点中有剩余空间6：把巧作为一个单独的簇插入并重新整从根到此叶子路径上的所有三元组;7：else分裂该节点并调整从根到此叶节点路径上的三元组。)5.3

22、.2 BIRCH 算法第五章聚类BIRC H算法分析：优点有：（1）节约内存，所有的对象都在磁盘上。（2）聚类速度快，只需要一遍扫描训练集就可以建立C F树，C F树的增删改都很快。（3）可以识别噪音点，还可以对数据集进行初步分类的预处理。缺点有：（1）由于C F树对每个节点的C F个数有限制，导致聚类的结果可能和真实的类别分布不同。（2）对高维特征的数据聚类效果不好。（3）如果簇不是球形的，则聚类效果不好。高级大数据人才培养丛书之一，大数据挖掘技术与应用第五章聚类5.1 聚类概述5.2 划分方法5.3 层次方法5.4 基于密度的方法5.5 实战：银行客户聚类分析习题5.4基于密度的方法

23、第五章聚类基于密度的聚类方法以数据集在空间分布上的稠密程度为依据进行聚类，无需预先设定簇的数量，特别适合对于未知内容的数据集进行聚类。密度聚类方法的基本思想是：只要一个区域中的点的密度大于某个域值，就把它加到与之相近的聚类中去，对于簇中每个对象，在给定的半径的邻域中至少要包含最小数目(MinP ts)个对象。这类算法能克服基于距离的算法只能发现“类圆形”的聚类的缺点，可发现任意形状的聚类，且对噪声数据不敏感。代表算法有:DBSC AN、OP TIC S、DENC LUE算法等。5.4基于密度的方法第五章聚类 DBSC AN 算法。DBSC AN是一种基于高密度连通区域的基于密度的聚类方法，

24、该算法将具有足够高密度的区域划分为簇，并在具有噪声的空间数据集中发现任意形状的簇，它将簇定义为密度相连的点的最大集合。对象的邻域：给定对象在半径g内的区域。核心对象：如果一个对象的邻域至少包含最小数目MinP ts个对象，则称该对象为核心对象。如图5-8中，8=1,MinP ts=5,q是一个核心对象。图5-8核心点、边界点和噪声点5.4基于密度的方法第五章聚类边界点：不是核心点，但落在某个核心点的邻域内。噪声：不包含在任何簇中的对象被认为是“噪声”。直接密度可达：给定一个对象集合D,如果p是在4的邻域内，而q是一个核心对象，我们说对象P从对象q出发是直接密度可达的。如果q是一个核心

25、对象,P属于q的邻域，那么称P直接密度可达q。5.4基于密度的方法第五章聚类密度可达的：如果存在一个对象链P i，p2，P n，P l=q，P n=P，对 P i D,(Ki C n),pi+1是从P i关于和加tP ts直接密度可达的，则对象 P是从对象q关于和MinP ts密度可达的，如同5-9所示。由一个核心对象和其密度可达的所有对象构成一个聚类。图5-9密度可达的5.4基于密度的方法第五章聚类密度相连的：如果对象集合D中存在一个对象o,使得对象p和q是从。关于和 MinP ts密度可达的，那么对象p和q是关于和Mi nP ts密度相连的。图5-10密度相连的5.4基于密度的方法第五章

26、聚类算法5.6 DBSC AN算法输入：-半径，MinP ts-给定点在邻域内成为核心对象时邻域内至少要包含数据对象数，D-数据对象集合输出：目标簇集合1：repeat2：判断输入点是否为核心对象；3：找出核心对象的邻域中的所有直接密度可达点;4：until所有输入点都判断完毕；5：repeat 6:针对所有核心对象的邻域所有直接密度可达点；7：找到最大密度相连对象集合，中间涉及到一些密度可达对象的合并;8：unti I所有核心对象的邻域都遍历完毕。5.4基于密度的方法第五章聚类算法5.6 DBSC AN算法输入：-半径，MinP ts-给定点在邻域内成为核心对象时邻域内至少要包含数据对象数

27、，D-数据对象集合输出：目标簇集合1：repeat2：判断输入点是否为核心对象；3：找出核心对象的邻域中的所有直接密度可达点;4：until所有输入点都判断完毕；5：repeat 6：针对所有核心对象的邻域所有直接密度可达点；7：找到最大密度相连对象集合，中间涉及到一些密度可达对象的合并;8：until所有核心对象的邻域都遍历完毕。高级大数据人才培养丛书之一，大数据挖掘技术与应用第五章聚类5.1 聚类概述5.2 划分方法5二3层次方法5.4 基于密度的方法5.5 实战：银行客户聚类分析习题，5.5实战：聚类分析第五章聚类5.5.1 背景与聚类目的聚类的任务是把所有的实例分配到若干的簇，使得同

28、一个簇的实例聚集在一个簇中心的周围，它们之间的距离比较近；而不同簇实例之间的距离比较远。在商业上，聚类分析被用来发现不同的客户群，并且通过购买模式刻画不同的客户群的特征。聚类分析是细分市场的有效工具，同时也可用于研究消费者行为，寻找新的潜在市场。现在我们使用k-均值算法对银行客户购买股权计划的数据文件“bank-data.arff”(本案例数据来源于(www.tipdm.org)作聚类分析,k均值算法只能处理数值型的属性，遇到分类型的属性时需把它变为若干个取值0和1的属性。Weka将自动实施这个分类型到数值型的变换，而且Weka会自动对数值型的数据作标准化。，5.5实战：聚类分析第五

29、章聚类5.5.2聚类过程1.打开Weka应用程序，在主界面上选择Explorer并打开。首先从预处理面板顶部点击open fi Ie按钮，启动文件选择对话框，找到bank-data,arff文件并打开，完成数据集加载，加载数据集如图571所示。5.5实战：聚类分析第五章聚类2.数据集加载完成后，可以在C ur rent re I at i on面板中查看数据集的基本信息，包括样本实例数、属性个数。下面的Attributes面板列出来了的数据集中属性名称，用鼠标选中某个属性后，在右侧Selected attr ibute面板中显示属性类型、属性值分布情况等详细信息，查看数据集属性基本信

30、息如下图所示。，5.5实战：聚类分析第五章聚类3.在Explorer界面顶部选择C luster面板，进入聚类分析界面。点击“C hoose”按钮选择“SimpleKMeans，这是WEKA中实现k均值的算法,选择“Simp leKMeans”聚类算法如下图所示。，5.5实战：聚类分析第五章聚类4.设置聚类分析算法参数。点击C hoose按钮右边的文本框，修改“numC lusters”为6,将实例聚成6类，即k=6；“seed参数是要设置一个随机种子，依此产生一个随机数，用来得到k均值算法中第一次给出的k个簇中心的位置，实验中可以反复修改该值，对比最终聚类分析效果。不妨暂时让它就为10,

31、点击0K按钮确定，设置聚类算法参数如图所示。5.5实战：聚类分析第五章聚类5.选中C luster Mode的Use trai ning set（使用训练集），选择 Store c I usters for v i sua I i zat i on（存储聚类可视化），聚类分析设置如图5 T 5所示。，5.5实战：聚类分析第五章聚类聚类过程点击Start按钮开始聚类分析，观察右边“C lusterer output”给出的聚类结果。也可以在左下角Result list”中这次产生的结果上点右键，View in separate window”在新窗口中浏览结果。结果如下所示：Cluster

32、 centroids:Cluster#Attribute Full Data 0 1 2 3 4 5(600)(72)(166)(71)(58)(99)(134)age 42.395 43.4444 43.7952 38.7447 37.3103 38.404 47.1791sex FEMALE FEMALE FEMALE FEMALE FEMALE MALE MALE region INNER_CITY RURAL INNER_CITY INNER_CITY TOWN INNER_CITY TOWN income 27524.0312 29322.789 28672.09 20239.377

33、6 20600.8528 25720.037 33324.4929 married YES NO YES YES YES YES NO children 1.0117 2.0139 0.6247 0.6761 1.6207 0.899 0.9478car NO NO NO NO NO YES YES save_act YES YES YES NO NO NO YES current_act YES YES YES YES YES YES YES mortgage NO NO NO NO NO YES NO pep NO NO NO YES NO YES YES)5.5实战：聚类分析第五章聚类5

34、.5.3聚类结果分析可视化结果如图所ZF：，5.5实战：聚类分析第五章聚类5.5.3聚类结果分析从“C lustered Instances”中可以看到整个银行客户被分为六簇：实例数最多的三个簇是簇1、簇4和簇5,更具有代表性，共占实例总数的67%,应将这三个簇的客户数据作为数据分析的重点。簇1中含有实例166个，占实例总数的28%,没有购买股权计划；簇5中含有实例134个，占实例总数的22%,购买了股权计划；簇4中含有实例 99个，占实例总数的17%,购买了股权计划。从簇1中看出，没有购买股权计划的客户的属性特征：没有抵押、没有车，有储蓄账户、有活期存款帐户，平均收入高于总平均收入。据此

35、可分析出该类客户投资比较谨慎，倾向于把钱存起来而不去做投资计划，推销的难度比较大，不建议向该类型的客户推销股权计划，除非能改变他们的理财理念。，5.5实战：聚类分析第五章聚类5.5.3聚类结果分析从簇5中看出，购买股权计划的客户的属性特征：没有抵押、没有结婚，有储蓄账户、有活期存款帐户、有车，平均收入在几个簇中最高。据此可分析出该类客户经济基础好，倾向于把钱用来做投资，理财理念新，向该类客户推销股权计划的推销成功率最高，建议重点推销。从簇4中看出，购买股权计划的客户的属性特征：没有储蓄账户，有抵押、有活期存款帐户、有车，平均收入基本与总平均收入持平。据此可分析出该类客户有一定的经济基础，消费理念新，开销大，向该类客户推销股权计划的推销成功率较高，建议有选择性的推荐。习题:1.简述聚类分析的基本思想和基本步骤？2.一个好的聚类算法应该具备哪些特性？3.简述划分聚类方法的主要思想。4.简述凝聚的层次聚类方法的主要思路。5.说出划分聚类与层次聚类的主要特点。6.在下表中给定的样本上运行AGNES算法，假定算法的终止条件为三个簇,初始簇1,2,3 ,4,5 ,6 ,7,8。序号属性1属性2序号属性1属性2121057522566438472488495感谢聆听

展开阅读全文

《数据挖掘》课件 第5章 聚类.pdf

《数据挖掘》课件第5章聚类.pdf