1、模糊支持向量机的分类研究模糊支持向量机的分类研究华东师范大学地理系v支持向量机概述v支持向量机理论基础v支持向量机v模糊支持向量机v应用研究主要内容2024/5/21周二2v支持向量机(SupportVectorMachine,简称SVM)是一种基于统计学习理论的模式识别方法,它是由Boser,Guyon,Vapnik在COLT-92上首次提出。COLT(ComputationalLearningTheory)支持向量机概述2024/5/21周二3v支持向量机是九十年代中期发展起来的一类新型机器学习方法。v它在很多领域都得到了成功的应用,如人脸检测、手写体数字识别、文本自动分类等。v它结构简单
2、,且具有全局最优性和较好的泛化能力,支持向量机方法是求解模式识别和分类问题的有效工具。支持向量机概述2024/5/21周二4v近年来SVM 方法已经在图像识别、信号处理和基因图谱识别等方面得到了成功的应用,显示了它的优势。vSVM 通过核函数实现到高维空间的非线性映射,所以适合于解决本质上非线性的分类、回归和密度函数估计等问题。v支持向量方法也为样本分析、因子筛选、信息压缩、知识挖掘和数据修复等提供了新工具。支持向量机概述2024/5/21周二5vSVM正在成为继神经网络研究之后新的研究热点,并将有力地推动机器学习理论和技术的发展,是一项很有发展前途的技术。v目前,国际上支持向量机在理论研究和
3、实际应用两方面都正处于飞速发展阶段,而我国国内在此领域的研究尚未成熟,因此我们需要及时学习掌握有关理论,开展有效的研究工作,使我们在这一有着重要意义的领域中能够尽快赶上国际先进水平。支持向量机概述2024/5/21周二6线性判别函数和判别面线性判别函数和判别面v一个线性判别函数(discriminantfunction)是指由x的各个分量的线性组合而成的函数v两类情况:对于两类问题的决策规则为v如果g(x)0,则判定x属于C1,v如果g(x)0;当;当x点在超平面的负侧时,点在超平面的负侧时,g(x)0,则判定x属于C1,如果g(x)0,则判定x属于C2,如果g(x)=0,则可以将x任意分到某
4、一类或者拒绝判定。广义线性判别函数广义线性判别函数支持向量机理论基础2024/5/21周二13广义线性判别函数广义线性判别函数支持向量机理论基础2024/5/21周二14广义线性判别函数广义线性判别函数支持向量机理论基础2024/5/21周二15设计线性分类器设计线性分类器支持向量机理论基础2024/5/21周二16核函数的选择核函数的选择支持向量机2024/5/21周二17最优分类面最优分类面vSVM 是从线性可分情况下的最优分类面发展而来的,基本思想可用图2的两维情况说明。图中,方形点和圆形点代表两类样本,H 为分类线,H1,H2分别为过各类中离分类线最近的样本且平行于分类线的直线,它们之
5、间的距离叫做分类间隔(margin)。所谓最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0),而且使分类间隔最大.推广到高维空间,最优分类线就变为最优分类面。支持向量机理论基础2024/5/21周二18支持向量机v小结:vSVM从线性可分情况下的最优分类面发展而来。v最优分类面就是要求分类线不但能将两类正确分开(训练错误率为0),且使分类间隔最大。vSVM考虑寻找一个满足分类要求的超平面,并且使训练集中的点距离分类面尽可能的远,也就是寻找一个分类面使它两侧的空白区域(margin)最大。v过两类样本中离分类面最近的点且平行于最优分类面的超平面上H1,H2的训练样本就叫做支持向量。2
6、024/5/21周二19SVMSVM方法的特点方法的特点v非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射;v对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心;v支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。vSVM 是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现 了 高 效 的 从 训 练 样 本 到 预 报 样 本 的“转 导 推 理”(transductive inference),大大简化了通
7、常的分类和回归等问题。支持向量机2024/5/21周二20vSVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。v少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性。这种“鲁棒”性主要体现在:增、删非支持向量样本对模型没有影响;支持向量样本集具有一定的鲁棒性;有些成功的应用中,SVM 方法对核的选取不敏感。SVM方法的特点方法的特点支持向量机2024/5/21周二21模糊支持向量机v2002年,LIN Chun-fu 等 人
8、 提 出 了 FuzzySVM(FSVM)算法。针对支持向量机推广到多类分类时存在的一些混分和漏分样本的问题,模糊支持向量机引入模糊因子以提高分类精度;v即给每个样本都赋一个模糊隶属度值,这样不同的样本对决策函数的学习有不同的贡献,以减小外部的影响。2024/5/21周二22v我们称训练集S=(x1,y1,a1),(x2,y2,a2),(xt,yt,at)(其中xjRn,yj为模糊数,aj为隶属度,0aj1,j=1,2,t)为 模 糊 训 练 集,称 训 练 点(xj,yj),j=1,2,t为模糊训练点。v由于模糊训练点(xj,yj)中的输出yj模糊,可导致最优超平面x+b=0中的和b模糊,记
9、作,,x+=0称为模糊最优超平面。模糊支持向量机2024/5/21周二23v选择适当的隶属度函数很重要。首先,隶属度的下界要被定义,其次,挑选数据集的特性和数据的特性之间的联系来构造隶属度函数。v基于距离的隶属度函数主要考虑样本点到相应类中心的距离,以减少噪声点对分类的影响。模糊支持向量机2024/5/21周二242024/5/21周二25v根据模糊训练集构造带有模糊决策的机会约束规划v利用基于模糊模拟的遗传算法近似求解带有模糊决策的机会约束规划,得模糊最优解(,)v构造模糊(分类)决策函数(x)=(x)+模糊支持向量机2024/5/21周二26v确定评价指标v选择训练数据v确定模糊训练集v训
10、练模糊训练点,构造最优分类函数以及最优分类函数隶属函数v测试v测试结果评价模糊支持向量机2024/5/21周二27vFSVM与区域增长结合的图像分割作为一种全局处理方法,模糊支持向量机图像分割方法不能完成对图像进行精细分割,其分割结果需要其他分割方法进一步处理。一种结合模糊支持向量机和区域生长的交互式分割方法,不仅可有效剔除与感兴趣区域特征类似的非目标区域,而且把为FSVM选择训练样本和为区域生长选择种子点两个步骤合二为一,从而提高了图像分割质量和交互式分割方法的自动分割能力。模糊支持向量机2024/5/21周二28vFSVM与小波分析在人脸识别中的结合由于小波能量特征具有表现表情纹路的能力,
11、与人脸表情识别的要求正好相符,把小波能量特征加入到原始图像中,用Fisher线性判别法(FLD)进行特征提取,然后采用FSVM进行识别。它不仅能获得高的表情识别率,而且过程简单,易于实现。模糊支持向量机2024/5/21周二29vFSVM与主成份分析结合的图像多目标分割边界复杂且不规则图像的分割,对传统的分割算法提出严峻的挑战。主成份分析(PCA)可达到降维和消除冗余信息的目的,使模糊支持向量机准备的样本空间更为紧凑、合理。便于对图像进行多目标分割,成功提取不规则边界。理论和实验表明,基于PCA和FSVM相结合的分割性能优于仅采用FSVM的分割性能。模糊支持向量机2024/5/21周二30vF
12、SVM与K均值结合的图像分类遥感图像分类方法通常采用监督算法,它需要人工选取训练样本,较繁琐;而非监督算法的分类精度不高。针对这些缺陷,可以使K均值与模糊支持向量机结合来对遥感图像全自动分类。首先使用K均值聚类算法对样本进行初始聚类,根据每类中样本数及其稀疏程度选取一些点作为标记的学习样本训练FSVM分类器,然后用FSVM对原始数据重新分类。模糊支持向量机2024/5/21周二31v图像复原(程序image_svm)vSVM用于线性分类v基于matlab的SVM模式分类(程序演示)v模糊支持向量机用于冠心病诊断研究 应用研究2024/5/21周二32SVM用于图像复原用于图像复原 应用研究20
13、24/5/21周二33SVM用于线性分类用于线性分类 应用研究加载数据2024/5/21周二34SVM用于线性分类用于线性分类 应用研究分类结果2024/5/21周二35基于基于matlab的的SVM模式分类模式分类 应用研究数据分类仿真实验模块界面2024/5/21周二36基于基于matlab的的SVM模式分类模式分类 应用研究创建数据模块2024/5/21周二37基于基于matlab的的SVM模式分类模式分类 应用研究数据分类实验2024/5/21周二38基于基于matlab的的SVM模式分类模式分类 应用研究线性核函数下的训练结果2024/5/21周二39基于基于matlab的的SVM模
14、式分类模式分类 应用研究rbf-1核函数下的训练结果2024/5/21周二40基于基于matlab的的SVM模式分类模式分类 应用研究rbf-8核函数的训练结果2024/5/21周二41基于基于matlab的的SVM模式分类模式分类 应用研究rbf-36核函数下的训练结果2024/5/21周二42基于基于matlab的的SVM模式分类模式分类 应用研究由实验结果可以看出(1):选取不同的核函数,分类的效果和训练时间会有所不同。比如,RBF-8的训练时间比较长,而RBF-1的支持向量个数不同于其它,可见还是根据实际情况选取合适的核函数及其参数才能进行最佳的分类。由实验结果可以看出(2):随着训练
15、数据个数的增加,支持向量的个数和训练时间也随之增多。而且支持向量只是总训练样本种的很少一部分。要使支持向量机标准算法达到最佳效果,应该选取合适的训练个数,使得分类的训练时间达到最佳效果,并提高分类的正确率。2024/5/21周二43冠心病诊断实例冠心病诊断实例下面,我们将应用模糊支持向量机的理论于冠心病的鉴别诊断。我们收集了34名患者的资料,以24名患者的资料作为训练样本,其中一半为正常人,表示为=1,另一半为冠心病患者,表示为=-1,数据见表1,其中舒张期血压,表示血浆胆固醇含量,且和为三角形模糊数。应用研究2024/5/21周二44表1:冠心病人和正常人舒张期血压和血浆胆固醇含量数据 应用研究2024/5/21周二45取参数C=0.1,,利用以上数据来训练以上规划,可得解,b=-6.962587,则可以得到冠心病的鉴别诊断规则:对给定的置信水平,如果,则为冠心病患者;如果,则为正常人。利用此鉴别诊断规则来拟合表1种的数据,只有三例被错分,诊断正确率为87.5%。用另外10例患者的资料作为测试样本,经测试正确率为90%。由此充分说明基于模糊训练样本的支持向量机具有好的拟合效果和高的预测精度。应用研究2024/5/21周二46v表2诊断结果 应用研究2024/5/21周二472024/5/21周二49