资源描述
K-Means&Fuzzy C-Means报告人:马宝秋聚类(Clustering)“物以类聚,人以群分”是对于静态数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息聚类(Clustering)聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(Subset),这样让在同一个子集中的成员对象都有相似的一些属性其他分析算法的一个预处理步骤在这一过程中没有监督,因此是一种无监督的分类聚类(Clustering)聚类分析的算法可以分为:划分法(分割式)(Partitioning Methods)层次法(阶层式)(Hierarchical Methods)基于密度的方法(Density-based Methods)基于网格的方法(Grid-based Methods)基于模型的方法(Model-Based Methods)聚类(Clustering)-层次法这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止聚类数据1数据2数据4数据5数据3具体又可分为“自底向上”和“自顶向下”两种方案。聚类(Clustering)-基于密度的方法基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点聚类(Clustering)-基于网格的方法这种方法首先将数据空间划分成为有限个单元(Cell)的网格结构,所有的处理都是以单个的单元为对象的这么处理的一个突出的优点就是处理速度很快聚类(Clustering)-基于模型的方法基于模型的方法给每一个聚类假定一个模型,然后去寻找能个很好的满足这个模型的数据集它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的聚类(Clustering)-划分法给定一个有N个元组或者纪录的数据集,构造K(K 02.决定聚类中心起始位置Cj(0),0 02.决定聚类中心起始位置Cj(0),0 j K3.for t=1,.,tmax(A)for j=1,.,N,计算隶属度矩阵(B)for i=1,.,K,更新聚类中心点.(C)计算收敛准则,若 成立则停止运算,否则进行下一轮迭代Fuzzy C-Means实现步骤实现步骤 使用Fuzzy C-Means聚类法同样地需事先确定聚类的数目同样地需事先确定聚类的数目与与K-Means聚类法最大的差异在于聚类法最大的差异在于Fuzzy C-Means聚类法加入了模糊的概念,使得每一聚类法加入了模糊的概念,使得每一输入向量不再仅隶属于某一特定的聚类,而输入向量不再仅隶属于某一特定的聚类,而是以其隶属程度来表现(是以其隶属程度来表现(Soft Clustering)使用Fuzzy C-Means聚类法运算量较大运算量较大参数参数m的优选仍有待于进一步的研究的优选仍有待于进一步的研究易于陷入局部最小,对初始值有一定敏感易于陷入局部最小,对初始值有一定敏感敬请批评指正敬请批评指正初始聚类中心m=2ep=0.3迭代8次迭代37次 ep=0.01
展开阅读全文