1、第6 3卷第4期20 2 3年7月大 连 理 工 大 学 学 报J o u r n a l o fD a l i a nU n i v e r s i t yo fT e c h n o l o g yV o l.6 3,N o.4J u l y 2 0 2 3文章编号:1 0 0 0-8 6 0 8(2 0 2 3)0 4-0 4 2 7-0 6基于两步特征加权的模糊支持向量机算法鞠 哲*,宋 一 明(沈阳航空航天大学 理学院,辽宁 沈阳 1 1 0 1 3 6)摘要:提出一种基于两步特征加权的模糊支持向量机算法.首先,利用信息增益算法获取样本的特征权重.然后,计算最大权重的特征与其他特征间
2、的斯皮尔曼相关系数,并将二者相乘后再与原有的特征权重相加,得到新的特征权重,减少弱相关和不相关特征对分类造成的影响.最后,在设计样本模糊隶属度时,不仅考虑样本与类中心的距离,还引入了样本间的亲和度,并将二者进行融合,以此减弱样本分布不均对分类精度的影响.在U C I数据集上的实验表明,与现有流行的几种模糊支持向量机算法相比,所提算法在准确率和F1值上得到了提升.关键词:模糊支持向量机;特征加权;信息增益;隶属度函数中图分类号:T P 1 8文献标识码:Ad o i:1 0.7 5 1 1/d l l g x b 2 0 2 3 0 4 0 1 3收稿日期:2 0 2 2-0 8-2 4;修回日
3、期:2 0 2 3-0 5-3 1.基金项目:辽宁省自然科学基金资助项目(2 0 1 9-B S-1 8 7);辽宁省教育厅系列项目-青年科技人才“育苗”项目(J Y T 1 9 0 2 7).作者简介:鞠哲*(1 9 8 6),男,副教授,硕士生导师,E-m a i l:j u z h e s a u.e d u.c n.0 引 言支持向量机(s u p p o r tv e c t o rm a c h i n e,S VM)是有着坚实理论基础的统计学习方法1-3,其学习策略是间隔最大化,旨在找到一个最优超平面将不同类样本尽可能地分隔开.S VM算法可以有效处理样本维度高、数量少、非线性等
4、问题,目前已实际应用于各个领域.然而标准S VM算法对于噪声和野点敏感,导致最终生成的分类超平面次优,并且当数据集中正负类样本数量不均衡时,分类超平面也会向少数类偏移.为了克服上述问题,L i n等4提出了模糊支持向量机(f u z z ys u p p o r tv e c t o rm a c h i n e,F S VM),针对不同的样本点给定不同的模糊隶属度,使得不同样本对分类超平面的建立有着不同的贡献,一定程度上降低了噪声对S VM的影响.L i n等4认为样本越靠近类中心,属于该类的可能性越大,赋予较高的权重;反之若距离类中心越远,则赋予较低的权重,将其视为噪声,一定程度上降低了噪
5、声对S VM的影响.文献5 提出了对不同类样本赋予不同的惩罚因子,加大对少类样本的惩罚,可以有效解决数据不平衡导致的S VM算法失效问题.文献6 将样本的不确定性和样本与类中心的距离相结合,提出了一种基于信息熵的改进F S VM算法,对非平衡数据集有着更高的分类精度.文献7 加入了参数来调整分类超平面与样本的距离,有效改善了样本分布不均导致分类精度下降的问题.文献8 在设计隶属度函数时,不仅考虑了样本与类中心的距离,还考虑了样本之间的紧密度.文献9 对核函数做出了修正,提出了基于中心核对齐的模糊支持向量机.上述算法均未考虑样本特征权重对分类超平面的影响,目前已有学者将特征加权方法引入模糊隶属度
6、设计.文献1 0 提出了特征加权支持向量机算法,避免了弱相关或不相关特征对分类超平面的干扰.邱云志等1 1在文献9-1 0 的基础上,提出了双重特征加权的模糊支持向量机,考虑了特征加权对核函数的影响.左喻灏等1 2提出了R e l i e f-F特征加权的F S VM算法,结合了样本权重和特征权重,提高了分类效率.然而,现有基于特征加权的模糊支持向量机算法在特征权重的获取上只计算了特征间的信息增益,未将重要和次重要的特征与不相关特征之间的特征权重差值放大,导致弱相关和不相关特征对分类还存在一定程度的干扰,最终使得分类效果不理想,并且在隶属度函数设计上只考虑了样本与类中心的距离,无法缓解样本内部
7、分布不均导致分类精度下降的问题.为此,本文提出基于两步特征加权的模糊支持向量机算法.首先,利用信息增益算法获取样本的特征权重.然后,选择信息增益最大的特征,计算其与剩余特征的斯皮尔曼相关系数,将最大的特征权重与其他特征的相关系数相乘并加到其他特征原有的权重上,得到新的特征权重.将得到的特征权重应用到隶属度函数距离的计算中,同时考虑样本的亲和度,通过样本内部的分布情况对隶属度函数做进一步修正.1 模糊支持向量机简介S VM的思想是在样本空间或核空间中,使不同类样本的间隔尽可能大,并获取间隔最大时的分类超平面1-3.F S VM是在S VM模型的基础上,给每个样本添加一个隶属度,用来表示不同样本对
8、分类超平面的不同重要程度4.对于一个训练集S=(xi,yi,si)Ni=1,xiRn为训练样本;yi+1,-1,为训练样本的标签,+1为正类,-1为负类;si0,1,为模糊隶属度,表示样本xi属于类yi的权重.F S VM模型为 m i n,b,122+CNi=1siis.t.yi(xi)+b)1-i,i=1,2,Ni0,i=1,2,N(1)求解方式可见文献1 1,最终得到分类的决策函数为f(x)=s g n(x)+b)=s g n Ni=1iyiK(xxi)+b(2)其中K(xxi)=(x)(xi),为核函数,目的是将样本通过非线性映射(x)映入高维空间.2 基于两步特征加权的隶属度函数设计
9、本文提出的算法首先对特征进行两步加权,再使用特征加权距离计算样本的间距以及亲和度,得到每个样本的隶属度.算法步骤如下:步骤1进行特征加权 通过式(3)、(4)计算出所有特征的信息增益G(k).通过式(5)计算出特征之间的斯皮尔曼相关系数cr(i,k),i和k为样本特征,如cr(3,5)表示第3个特征与第5个特征的相关系数.找到信息增益最大的特征,位置记为M,然后根据其与剩余特征的相关系数,以式(6)赋予最终的特征权重w(k).由于斯皮尔曼相关系数的定义,绝对值大于0.4可以认为具有一定相关性,故找到绝对值大于0.4的特征,赋予其新的特征权重,小于0.4的特征不做处理.将已得到w(k)的特征忽略
10、,对未赋予w(k)的特征重复上述过程,直至全部特征都被赋予新的w(k).此步骤的流程图如图1所示.图1 步骤1流程图F i g.1 F l o w c h a r to fS t e p1特征加权表示给样本的特征赋予相应的权重.特征的信息增益表示特征对样本集合不确定性的减少程度,为信息熵与条件熵之差.其中信息熵用来度量样本集合的不确定性,条件熵为特征给定条件下样本集合的不确定性.具体计算方法如下:设D为数据集,|D|为数据集中的样本个数,D中 有h个 类别标签Ki(i=1,2,h),Ki,D为D中标签为Ki的样本个数.D的信息熵为En t(D)=-hi=1Ki,DDl o g2Ki,DD(3)
11、若特征B有v个取值Bj(j=1,2,v)、Dj为D中特征B上取值为Bj的数据集.特征B对D进行划分得到的信息增益G(D,B)为G(D,B)=En t(D)-vj=1DjDEn t(Dj)(4)斯皮尔曼相关系数用来衡量两个变量之间的相关性大小,越趋于0表示两个变量之间的相关824大连理工大学学报第6 3卷 性越低.斯皮尔曼相关系数在计算上采用取值等级而非取值本身,可以大大降低错误和极端数据对结果的影响.其计算公式为=Ni=1(Ri-R)(Si-S)Ni=1(Ri-R)2Ni=1(Si-S)2 2(5)其中Ri和Si表示样本i取值等级,R和S表示R和S的平均等级,N为样本个数.w(k)=G(k)+
12、G(k);k=MG(k)+m a x(G)cr(M,k);kM(6)步骤2设计模糊隶属度函数 本文在距离的计算上均使用特征加权距离,方法如式(7)所示,其中l表示特征的个数.通过模糊C均值算法得到样 本 的 正 负 类 中 心x+c e n,x-c e n以 及dc e n+i=d(xi,x+c e n),dc e n-i=d(xi,x-c e n),以式(8)赋予特征加权隶属度s1(xi).然后考虑样本亲和度a(xi),根据特征加权距离进行紧密度和分散度计算,并将样本亲和度归一化,以此保证亲和度与s1(xi)在同等数量级上,得到隶属度s2(xi)=-a(xi),计算得到最终的隶属度函数:s(
13、xi)=s1(xi)+s2(xi).再将s(xi)归一化,防止隶属度为负.d(xi,xj)=lk=1w(k)(xki-xkj)2(7)s1(xi)=s+1(xi)=1-dc e n+im a xi(dc e n+i)+;i=1,2,ps-1(xi)=1-dc e n-im a xi(dc e n-i)+;i=p+1,p+2,N(8)此步骤使用了模糊C均值算法.假定对数据集S进行分类,每个点xi属于第j个聚类中心cj的隶属度为i j,表达式为J=Ni=1Hj=1mi jxi-cj2(9)约束条件为Hj=1i j=1,i=1,2,N.式中:N与H分别表示样本个数与聚类中心数,m为隶属度因子,xi-
14、cj2表示xi到聚类中心cj的欧氏距离.要求J的值越小越好,通过反复求导计算,得到i j与cj的迭代公式为i j=1Hq=1(xi-cj/xi-cq)2/(m-1)(1 0)cj=Ni=1(mi jxi)Ni=1mi j(1 1)本文样本亲和度为每个样本对数据集的影响程度,样本对数据集的影响由样本的分散度及紧密度体现1 3.样本分散度:删除每个样本前后,样本间距离标准差的变化比率.U(xi,D)=ts t d(D/xi)ts t d(D);i=1,2,N(1 2)样本紧密度:删除每个样本前后,样本均值的变化比率.T(xi,D)=mm e a n(D/xi)mm e a n(D);i=1,2,N
15、(1 3)样本亲和度:删除每个样本前后,样本分散度与样本紧密度之比.a(xi,D)=U(xi,D)T(xi,D)(1 4)其中ts t d与mm e a n分别表示样本的距离标准差与均值.由上述可知,当样本分散度低、紧密度高时,样本对数据集的影响就越大,样本的亲和度就越小.3 实验与结果分析实验在2.9 0 H z/4.0G B的计算机上使用M a t l a b2 0 2 1 a中的l i b s v m工具包实现.使用U C I数据集中的8个二分类数据集,数据集名称及相关信息见表1.表1 U C I数据集特征T a b.1 U C Id a t a s e t c h a r a c t
16、e r i s t i c s数据集名称正类样本数负类样本数特征维数I o n o s p h e r e1 2 62 2 53 4H e p a t i t i s3 21 2 31 9B r e a s tC a n c e r(B C)2 0 18 59C l i m a t eM o d e l S i m u l a t i o nC r a s h e s(CM S C)4 64 9 41 8A u s t r a l i a nC r e d i tA p p r o v a l(A C A)3 0 73 8 31 5S t a l o gH e a r t(S H)1 5 01
17、 2 01 3V e r t e b r a lC o l u m n(V C)2 1 01 0 06B r e a s tC a n c e rW i s c o n s i n(B CW)4 4 42 3 99核函数选择通用性较好的R B F核函数K(xi924 第4期 鞠哲等:基于两步特征加权的模糊支持向量机算法xj)=e x p(-xi-xj2).为了更好地与现有算法对比,本文采用文献1 1 中训练集和测试集的划分方式,将数据打乱顺序后以73的比例分配训练集和测试集,使用网格搜索的方式选择最优参数,C=2-5,2-4,21 5,=2-1 5,2-1 4,23.为防止数据集正负样本不平衡
18、对分类精度的影响,本文在参数C的设定上使用文献5 的方式,对不同类样本以不同的惩罚项C+=C-(N-p)/p,其中C+、C-分别为少类样本与多类样本的惩罚项,p表示少类样本个数,N-p为多类样本个数.本文的评价指标为准确率(Ac c)和F1值.准确率(Ac c)表示分类正确的样本与总样本数量之比:Ac c=Tp+TnTp+Fp+Fn+Tn(1 5)F1值为精准率(Pr e)和召回率(Re c)的调和平均:Pr e=TpTp+Fp(1 6)Re c=TpTp+Fn(1 7)F1=2Pr eRe cPr e+Re c(1 8)式中:Tp表示被正确分类的正类样本个数,Tn表示被正确分类的负类样本个数
19、,Fp表示被误分类成正类样本的个数,Fn表示被误分类成负类样本的个数.本 文 算 法 与 标 准S VM1、F S VM4、FWS VM1 0、改进算法C KA-F S VM9,以及基于特征加权的FWF S VM1 2、D FW-F S VM1 1进行比较,结 果 见 表2.为 了 更 好 地 与 本 文 算 法 对表2 本文算法与其他算法在U C I数据集上的比较结果T a b.2 C o m p a r i s o nr e s u l t so f t h ep r o p o s e da l g o r i t h mw i t ho t h e ra l g o r i t h m
20、 s i nU C Id a t a s e t数据集算法准确率F1值数据集算法准确率F1值I o n o s p h e r eS VM1F S VM4FWS VM1 0FWF S VM1 2C KA-F S VM9D FW-F S VM1 1本文算法9 1.5 19 3.4 09 5.2 89 4.3 49 2.4 59 5.2 89 6.3 08 6.9 69 0.1 49 2.1 19 2.1 18 8.8 99 3.1 59 4.6 9A C AS VM1F S VM4FWS VM1 0FWF S VM1 2C KA-F S VM9D FW-F S VM1 1本文算法7 6.8 17
21、 1.5 08 2.1 37 5.8 56 8.1 28 4.0 68 5.0 57 5.0 06 7.0 48 2.3 07 4.2 36 9.4 48 4.3 68 6.4 4H e p a t i t i sS VM1F S VM4FWS VM1 0FWF S VM1 2C KA-F S VM9D FW-F S VM1 1本文算法8 0.8 58 0.8 57 6.6 08 2.9 88 5.1 18 2.9 88 6.6 74 0.0 05 7.1 44 7.6 25 5.5 63 6.3 66 0.0 06 2.5 0S HS VM1F S VM4FWS VM1 0FWF S VM1
22、 2C KA-F S VM9D FW-F S VM1 1本文算法7 9.0 17 4.0 78 0.2 57 2.8 47 6.5 48 1.4 88 5.1 98 1.3 27 6.9 28 2.9 87 6.0 97 8.6 58 4.2 18 4.5 1B CS VM1F S VM4FWS VM1 0FWF S VM1 2C KA-F S VM9D FW-F S VM1 1本文算法6 8.6 07 4.4 27 2.0 97 5.5 86 9.7 77 6.7 47 7.2 77 8.7 48 3.3 38 1.5 48 4.2 18 2.1 98 5.0 78 5.5 1V CS VM
23、1F S VM4FWS VM1 0FWF S VM1 2C KA-F S VM9D FW-F S VM1 1本文算法8 2.8 08 6.0 28 7.1 08 7.1 08 6.0 28 9.2 59 0.3 28 8.0 69 0.6 59 0.9 19 1.3 09 0.0 89 2.4 29 2.6 8CM S CS VM1F S VM4FWS VM1 0FWF S VM1 2C KA-F S VM9D FW-F S VM1 1本文算法9 2.5 99 3.2 19 3.8 39 4.4 49 4.4 49 5.6 89 5.2 84 5.4 54 2.1 14 4.4 45 2.6
24、36 6.6 76 6.6 76 6.6 7B CWS VM1F S VM4FWS VM1 0FWF S VM1 2C KA-F S VM9D FW-F S VM1 1本文算法9 5.5 49 5.0 59 6.0 49 5.5 49 5.0 59 6.5 39 7.2 09 6.6 09 6.2 49 6.9 79 6.6 09 6.2 49 7.3 69 7.7 9034大连理工大学学报第6 3卷 比,将FWF S VM1 2中R e l i e f-F算法进行特征加权的方式替换为信息增益算法.本文算法与FWS VM和FWF S VM相比,准确率与F1值全部得到了提升,说明进行两步特征加权
25、的方式可以最大限度地放大重要和次重要特征与弱相关和不相关特征在权重上的差值,有效避免了后者对分类的干扰,加强了相对重要特征对分类的贡献,训练出了分类性能良好的模型.在A C A和S H数据集上,F S VM算法的准确率和F1值要低于S VM算法,原因是只考虑样本与类中心距离的隶属度函数会因数据集的不规则分布导致分类精度下降.本文算法在考虑了样本亲和度后,衡量了每个样本的存在对数据集的影响,利用样本内部的分布情况对隶属度函数做出了适当修正,减小了仅使用样本与类中心距离作为隶属度函数时对数据集几何形状的依赖,在数据集非球形分布时的分类精度也获得了提升,降低了噪声和野点对分类超平面的干扰,并且本文使
26、用了聚类的方式获得类中心,相比于求平均值计算出的类中心,虽然前者在计算上有一定的耗时,但其含有数据集中更多的样本信息,有助于获取更准确的样本隶属度.从表2的结果上看,本文算法在7个U C I数据集(除CM S C数据集)上的准确率和F1值有0.5%4.0%的提升.其中在S H数据集上的准确率提升最大,在H e p a t i t i s数据集上的F1值提升最大,说明本文所提出的基于两步特征加权思想有效地提高了算法的泛化性.但是针对某些数据集该算法也会存在特征加权失效的情况.例如,在CM S C数据集上的准确率并未得到提升,低于D FW-F S VM算法,原因是在此数据集上,特征的信息增益接近,
27、并且相关系数都趋于0,导致提出的两步特征加权方法失效,特征加权步骤近似退化为D FW-F S VM的计算方式,并且此数据集正负类样本比例高度不平衡,这也对算法的分类精度产生一定影响,但在设计隶属度函数时考虑了样本的亲和度,使得准确率相比于FWS VM与FWF S VM算法还存在一定的提升.另外,本文提出的特征权重计算及隶属度函数设计虽然相比于F S VM有着额外的耗时,但是算法的复杂度并未增加,有一定的推广价值.4 结 语本文设计的两步特征加权方法充分放大了重要特征与弱相关或不相关特征在权重上的差值,有效防止了后者对分类的影响,并且根据样本内部的分布情况对隶属度函数进行进一步修正,使得每个样本
28、都具有相对合理的隶属度,降低了噪声和野点对分类超平面的干扰.但在不平衡数据集下,本文并未在算法层面提出新的计算方法,下一步的研究目标为设计出新的针对不平衡数据集的F S VM算法.参考文献:1VA P N I K V N.T h eN a t u r eo fS t a t i s t i c a lL e a r n i n gT h e o r yM.N e wY o r k:S p r i n g e r,1 9 9 5.2C R I S T I AN I N I N,S HAWE-TAY L O R J.A nI n t r o d u c t i o nt oS u p p o r
29、tM a c h i n e sa n dO t h e rK e r n e l-b a s e dL e a r n i n gM e t h o d sM.C a m b r i d g e:C a m b r i d g eU n i v e r s i t yP r e s s,2 0 0 0.3 李航.统计学习方法 M.北京:清华大学出版社,2 0 1 2.L I H a n g.S t a t i s t i c a l L e a r n i n g M e t h o d sM.B e i j i n g:T s i n g h u a U n i v e r s i t y
30、 P r e s s,2 0 1 2.(i nC h i n e s e)4L I N C h u n f u,WAN G S h e n g d e.F u z z y s u p p o r tv e c t o rm a c h i n e sJ.I E E ET r a n s a c t i o n so nN e u r a lN e t w o r k s,2 0 0 2,1 3(2):4 6 4-4 7 1.5V E R O P OU L O SK,C AMP B E L LICG,C R I S T I AN I N I N.C o n t r o l l i n g t h
31、 e s e n s i t i v i t y o fs u p p o r tv e c t o rm a c h i n e sC/P r o c e e d i n g so ft h eI n t e r n a t i o n a l J o i n tC o n f e r e n c eo nA r t i f i c i a l I n t e l l i g e n c e.S t o c k h o l m:I J C A IP r e s s,1 9 9 9:5 5-6 0.6 魏鑫,张雪英,李凤莲,等.面向非平衡数据集分类的改进模糊支持向量机 J.计算机工程与设计,2
32、 0 1 9,4 0(1 1):3 1 2 4-3 1 2 9,3 1 9 9.WE IX i n,Z HAN G X u e y i n g,L IF e n g l i a n,e ta l.I m p r o v e d f u z z y s u p p o r t v e c t o rm a c h i n e f o rc l a s s i f i c a t i o no f i m b a l a n c e dd a t a s e t sJ.C o m p u t e rE n g i n e e r i n ga n dD e s i g n,2 0 1 9,4 0(
33、1 1):3 1 2 4-3 1 2 9,3 1 9 9.(i nC h i n e s e)7 李村合,姜宇,李帅.基于不等距超平面距离的模糊支持向量机 J.计算机系统应用,2 0 2 0,2 9(1 0):1 8 5-1 9 1.L IC u n h e,J I AN G Y u,L IS h u a i.F u z z ys u p p o r tv e c t o rm a c h i n ea l g o r i t h mb a s e do n i n e q u a l i t yh y p e r-134 第4期 鞠哲等:基于两步特征加权的模糊支持向量机算法p l a n e
34、 d i s t a n c eJ.C o m p u t e r S y s t e m s a n dA p p l i c a t i o n s,2 0 2 0,2 9(1 0):1 8 5-1 9 1.(i nC h i n e s e)8 鞠哲,曹隽喆,顾宏.用于不平衡数据分类的模糊支 持 向 量 机 算 法 J.大 连 理 工 大 学 学 报,2 0 1 6,5 6(5):5 2 5-5 3 1.J UZ h e,C A OJ u n z h e,GU H o n g.Af u z z ys u p p o r tv e c t o r m a c h i n e a l g o
35、 r i t h m f o r i m b a l a n c e d d a t ac l a s s i f i c a t i o nJ.J o u r n a lo fD a l i a n U n i v e r s i t yo fT e c h n o l o g y,2 0 1 6,5 6(5):5 2 5-5 3 1.(i nC h i n e s e)9WANG T i n g h u a,Q I UY u n z h i,HUA J i a l i n.C e n t e r e dk e r n e la l i g n m e n ti n s p i r e df
36、 u z z ys u p p o r tv e c t o rm a c h i n eJ.F u z z yS e t sa n dS y s t e m s,2 0 2 0,3 9 4:1 1 0-1 2 3.1 0汪廷华,田 盛 丰,黄 厚 宽.特 征 加 权 支 持 向 量机 J.电子与信息学报,2 0 0 9,3 1(3):5 1 4-5 1 8.WANG T i n g h u a,T I AN S h e n g f e n g,HUAN GH o u k u a n.F e a t u r ew e i g h t e ds u p p o r tv e c t o rm a
37、 c h i n eJ.J o u r n a l o fE l e c t r o n i c sa n dI n f o r m a t i o nT e c h n o l o g y,2 0 0 9,3 1(3):5 1 4-5 1 8.(i nC h i n e s e)1 1邱云志,汪廷华,戴小路.双重特征加权模糊支持向量机 J.计算机应用,2 0 2 2,4 2(3):6 8 3-6 8 7.Q I U Y u n z h i,WAN G T i n g h u a,D A I X i a o l u.D o u b l y f e a t u r e-w e i g h t e
38、 d f u z z y s u p p o r t v e c t o rm a c h i n eJ.J o u r n a lo f C o m p u t e r A p p l i c a t i o n s,2 0 2 2,4 2(3):6 8 3-6 8 7.(i nC h i n e s e)1 2左喻灏,贾连印,游进国,等.基于R e l i e f-F特征加权的模糊支持向量机的分类算法 J.化工自动化及仪表,2 0 1 9,4 6(1 0):8 3 4-8 3 8,8 6 4.Z UO Y u h a o,J I A L i a n y i n,Y OU J i n g u
39、 o,e ta l.C l a s s i f i c a t i o na l g o r i t h m b a s e do n R e l i e f-Ff e a t u r ew e i g h t i n gf u z z ys u p p o r t v e c t o rm a c h i n eJ.C o n t r o la n d I n s t r u m e n t s i n C h e m i c a l I n d u s t r y,2 0 1 9,4 6(1 0):8 3 4-8 3 8,8 6 4.(i nC h i n e s e)1 3李娟,王宇平.
40、结合紧密度和分散度的近邻亲和相似度函数 J.西安电子科技大学学报,2 0 1 4,4 1(3):1 2 3-1 3 0.L IJ u a n,WAN G Y u p i n g.N e w n e a r e s tn e i g h b o ra f f i n i t ys i m i l a r i t yf u n c t i o nb a s e do ns e p a r a t i o na n dc o m p a c t n e s sb e t w e e ns a m p l e sJ.J o u r n a l o fX i d i a nU n i v e r s i
41、 t y,2 0 1 4,4 1(3):1 2 3-1 3 0.(i nC h i n e s e)F u z z ys u p p o r t v e c t o rm a c h i n ea l g o r i t h mb a s e do nt w o-s t e pf e a t u r ew e i g h t i n gJ U Z h e*,S O N G Y i m i n g(C o l l e g eo fS c i e n c e,S h e n y a n gA e r o s p a c eU n i v e r s i t y,S h e n y a n g1 1
42、 0 1 3 6,C h i n a)A b s t r a c t:Af u z z y s u p p o r t v e c t o rm a c h i n e a l g o r i t h mb a s e do n t w o-s t e p f e a t u r ew e i g h t i n g i s p r o p o s e d.F i r s t l y,t h e i n f o r m a t i o ng a i na l g o r i t h mi su s e d t oo b t a i n t h e f e a t u r ew e i g h
43、t s o f t h e s a m p l e s.T h e n,t h eS p e a r m a nc o r r e l a t i o nc o e f f i c i e n t sb e t w e e n t h e f e a t u r ew i t ht h em a x i m u mw e i g h t a n do t h e r f e a t u r e s a r ec a l c u l a t e d,a n dt h ec o r r e s p o n d i n gS p e a r m a nc o r r e l a t i o nc o
44、 e f f i c i e n t sa r em u l t i p l i e db yt h em a x i m u mf e a t u r ew e i g h t.T h e nt h er e s u l t sa r ea d d e dw i t ht h eo r i g i n a l f e a t u r ew e i g h t st og e tt h en e wf e a t u r ew e i g h t s,s o a st or e d u c et h ei m p a c to f w e a k l y c o r r e l a t e d
45、f e a t u r e sa n di r r e l e v a n tf e a t u r e s o nc l a s s i f i c a t i o n.F i n a l l y,w h e nd e s i g n i n gt h ef u z z y m e m b e r s h i po fs a m p l e s,n o to n l yt h ed i s t a n c eb e t w e e ns a m p l e sa n dc l a s sc e n t e r i sc o n s i d e r e d,b u ta l s ot h ea
46、 f f i n i t yb e t w e e ns a m p l e s i s i n t r o d u c e d.A n dt h ed i s t a n c ea n dt h ea f f i n i t ya r ef u s e ds oa st or e d u c et h ei n f l u e n c eo fu n e v e nd i s t r i b u t i o no fs a m p l e so nc l a s s i f i c a t i o na c c u r a c y.E x p e r i m e n t so n U C I
47、d a t a s e ts h o wt h a tc o m p a r e d w i t hs e v e r a lp o p u l a r f u z z ys u p p o r tv e c t o rm a c h i n ea l g o r i t h m s,t h ep r o p o s e da l g o r i t h mi s i m p r o v e d i na c c u r a c ya n dF1v a l u e.K e yw o r d s:f u z z ys u p p o r tv e c t o rm a c h i n e;f e a t u r ew e i g h t i n g;i n f o r m a t i o ng a i n;m e m b e r s h i pf u n c t i o n234大连理工大学学报第6 3卷
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100