基于SHAP值的类重叠识别方法对FSVM的改进.pdf

资源描述

1、引用格式：曹玉茹，高洋洋，李祈萱基于 SHAP 值的类重叠识别方法对 FSVM 的改进J.微电子学与计算机，2023，40（10）：9-19CAO Y R，GAO Y Y，LI Q X.Improvement of FSVM by the method of class overlap recognition based on SHAP valueJ.Microelectronics&Computer，2023，40（10）：9-19.DOI：10.19304/J.ISSN1000-7180.2022.0859基于 SHAP 值的类重叠识别方法对 FSVM 的改进曹玉茹，高洋洋，李祈萱（上海对

2、外经贸大学统计与信息学院,上海 201620）摘要：在分类问题中,类重叠现象会大大影响分类模型的效果,针对类重叠样本的识别问题,提出了一种基于SHAP 值的类重叠识别新方法,基于 SHAP 值构造出样本在所属类中的分类作用能力隶属属性,对类间重叠样本进行有效识别,然后利用仿真实验验证了基于 SHAP 的类重叠识别方法的适用性；将样本的分类作用能力归一化后构造出样本隶属度度量,并将该隶属度应用于模糊支持向量机(Fuzzy Support Vector Machine,FSVM)算法后得到FSVM_SHAP 模型,通过在多个经典二分类数据集上实验得到了较好的效果,体现了该模型的有效性.关键词：二

3、分类；类重叠；SHAP 模型；隶属度；FSVM中图分类号：TP181 文献标识码：A 文章编号：1000-7180（2023）10-0009-11Improvement of FSVM by the method of class overlap recognitionbased on SHAP valueCAO Yuru，GAO Yangyang，LI Qixuan（School of Statistics and Information,Shanghai University of International Business and Economics,Shanghai 201620,C

4、hina）Abstract：In the classification problem,the phenomenon of class overlap will greatly affect the effectiveness of theclassification model.A new method of class overlap recognition based on SHAP values is proposed for the identification ofclass overlap samples.Based on the SHAP value,the membershi

5、p attribute of the samples classification ability in the classto which it belongs is constructed to effectively identify the overlapping samples between classes.The applicability of theclass overlap recognition method based on SHAP is verified by using simulation experiments;After normalizing thecla

6、ssification capability of samples,the membership measure of samples is constructed and applied to the fuzzy supportvector machine(FSVM)algorithm to obtain FSVM_SHAP,The model has been tested on several classic binary data setsand achieved good results,which reflects the effectiveness of the model.Ke

7、y words：binary classification；class overlap；SHAP model；degree of membership；FSVM 1引言当不同类别样本同属于特征空间的重叠区域时,会产生类重叠问题.研究表明,处于类重叠区域的不同类样本具有相似的取值,所以,在边界模糊的重叠区域,传统的分类器较难找到可行的解决方案,分类算法的表现通常较差1.在目前的研究中,类重叠区域可通过朴素贝叶斯、支持向量数据描述等方法进行识别2,3,例如：Yang提出了结合三种欠采样方法的边界噪声因子(BNF)表示边界噪声程度4,而 Trappenberg 将重叠样本视为一个新类,赋予不同的类别

8、标签进行建模学习5.Devi 将重叠区域视为异常值样本,使用 one-classSVM 进行检测,并改进了 Tome-link 用以消除重叠情收稿日期：2022-12-13；修回日期：2023-01-09 40 卷第 10 期微电子学与计算机http:/Vol.40No.102023 年 10 月MICROELECTRONICS&COMPUTEROctober 2023况6.基于支持向量机改进的模糊支持向量机(FuzzySVM,FSVM)能够更好地解决异常值和噪声问题,通过为不同样本赋予隶属度,以反映其重要性,被广泛应用于类重叠分类问题7.隶属度函数的构造是模糊支持向量机的核

9、心,目前比较常见的有基于类中心距离7、基于到类内超平面距离8等方法.由于基于类中心距离的隶属度方法7对于数据分布的规则形状依赖较大,基于样本点到类内超平面距离的隶属度计算方法8改进了传统的依赖分布规则形状的距离计算模式,但缺点是对类别非对称的复杂分布,隶属度计算方式仍不合适,会导致错误评估样本分类重要性.另外对于类不均衡数据,类重叠对分类效果的影响更加明显,Lee 构建了基于 KNN 和 FSVM 的重叠敏感边缘分类器(OSM)来解决类不平衡和重叠问题,但识别效果非常依赖于 KNN 分类器,因而精度一般9.Batuwita 提出了专门针对类不平衡数据的FSVM-CIL 算法,该方法对不平衡数据

10、有效,但却牺牲了整体的预测效果10.上述方法基于距离识别类重叠并赋予代表样本分类重要性程度的隶属值,均有依赖样本分布的局限性,而考虑到 SHAP 后置解释模型能解释前置模型训练后的数据特征在分类过程中的作用力大小与方向,可以直接帮助区分已知类别数据中分类作用较弱的样本(即类间重叠点),从而避免由于类别非对称等复杂分布导致的样本重要性错误评估.本文提出了一种基于 SHAP 值计算样本分类作用的方法,解决了类重叠识别问题并将相应的样本隶属度值用在 FSVM中取得更为鲁棒的决策超平面以及更好的分类效果.文章研究内容包括：(1)提出了一种新的类重叠识别方法,来筛选类间重叠样本；(2)构造一种新的基于样

11、本分类作用的隶属度计算方式,并应用于模糊支持向量机,改善类重叠区域上超平面训练效果；(3)实验论证该方法的有效性.2相关概念及理论 2.1SHAP 模型可解释性逐渐成为近年来机器学习的重要方向,SHAP(Shapley Additive exPlanation)是在 2017 年由 Lundberg&Lee 在11中提出的一个模型可解释性框架,可以解释多种机器学习模型的输出.SHAP 将每个特征都视为“贡献者”,对样本中的每个特征变量,计算出重要性值,达到解释的效果.在进行局部解释时,SHAP 的核心是计算每个特征变量的 ShapleyValue.iFiShapley Value 起源于合作博

12、弈论,对于第个特征的边际贡献值计算如下：i=SFFi|S|!(|F|S|1)!|F|!(fSFi(S Fi)fS(S)（1）FS FFiFifSFiFifS式中,是所有特征的集合;是除去特征后所有的特征子集;代表特征存在时训练的模型;是其余保留的特征训练的模型.特征值的Shapley 值是其对于总预测的贡献在所有可能的特征组合上加权和.2.2模糊支持向量机 2.2.1FSVM 简介支持向量机（Support Vector Machine,SVM）是一种基于结构风险最小化的分类器,通过求解二次规划问题寻找支持向量,从而训练出将数据分为两类的最佳超平面12.SVM 的特点决定了其对于训练样本的噪

13、声和异常值特别敏感,当数据中存在噪声或者野点时,当前分类超平面通常并非最优.为解决 SVM 对于异常值和噪声的过拟合问题,文献 7 在支持向量机算法上进行了改进,提出了模糊支持向量机(FSVM).两者的不同之处在于,FSVM中每个样本都被赋予了属于其类别的模糊样本权重即模糊隶属度,以表征其重要性.S=(x1,y1,s1),(xn,yn,sn)xi Rdyi 1,+1 si0 si 1假定训练样本集合为,其中,是样本的模糊隶属度,同时.FSVM 求解最优分类超平面问题则转化为求解下列目标函数的最优解：min12w2+Cni=1sii（2）s.t.yi(wTxi+b)1i,i=1,2,ni 0,i

14、=1,2,nC 0isi式中,是惩罚参数;是松弛因子,表示样本被错分的程度,模糊隶属度越小,样本的重要性越低,其在目标函数中的作用越小,训练超平面受其影响也越小.2.2.2隶属度函数构造隶属度的计算策略对于 FSVM 的性能至关重要,本文总结了几种隶属度构造方法.(1)基于类中心距离的隶属度函数该方法计算样本点到其所属类中心的距离,样本隶属度的大小和距离成正比,隶属度表达式7为:si=1|xi x|R+（3）|xi x|式中,表示样本到类中心的距离；R 表示类半10微电子学与计算机2023 年径;预先设置,用以保证隶属度不为 0.(2)基于类内超平面距离的隶属度函数 x+xw=x+x基于样本

15、点到类内超平面的距离8在一定程度上可以降低对数据分布形态的要求且能够更好体现各样本点对构建分类超平面的贡献度,本文将其记为 FSVM_IHD 方法.记正负类样本的类中心分别为,;为法向量,正负类样本到其分类超平面的距离分别为:di+=|wT(xi x+)|w|,di=|wT(xi x)|w|（4）基于类内超平面距离的隶属度函数计算公式如下：si=1di+D+,yi=+11diD+,yi=1（5）D+D0 si 1式中,代表正负类样本与各自类内超平面的最大距离;是一个较小的正数,以保证.(3)基于不平衡样本的隶属度函数不平衡数据样本在实际应用中会严重影响分类器的效果,FSVM_CIL10算法结合

16、了模糊支持向量机和类不平衡学习方法,对每个样本基于其自身的重要程度赋予不同的模糊隶属度值,使得 SVM 分类器能够同时解决类别不均衡问题和噪声/异常值问题.在 FSVM_CIL 算法中,隶属度函数定义如下：s+i=f(x+i)r+si=f(xi)r（6）f(xi)xir+rx+i0,r+xi0,rr+=1,r=rr D then do14:DD1+D215:ELSE16:CONTINUE17:TMean(SP_Sortedi:i+1)18:EndIF19:EndFor20:ReturnTA在得到各类中 SP 值向量的阈值 T 后可以选出各类中的类重叠部分样本,如类中重叠样本：OLA=I1(S

17、PA)XA,ifE(SPA)E(SPB)I2(SPA)XA,ifE(SPA)E(SPB)（13）I1(SPi)=0,ifSPi TA1,ifSPi TA（14）I2(SPi)=0,ifSPi TA1,ifSPi TA（15）OLASPASPBXAI1I2TA式中，A，B 为两类；为 A 类中的重叠样本集合;,分别为A 类和B 类的SP 向量;为A 类的样本集合;,为指示函数;为根据 OTSU 方法得到的 A 类样本 SP 值向量分割阈值;为哈达玛积运算.4基于类重叠识别的模糊支持向量机 4.1构造隶属度函数为表示样本对所属类别分类作用能力的相对大小即类隶属程度,需要根据类作用方向对各类 SP

18、值向量各自进行归一化处理,如 A 类样本的隶属度：sAi=SPAimin(SPA)max(SPA)min(SPA),ifE(SPA)E(SPB)max(SPA)SPAimax(SPA)min(SPA),ifE(SPA)1.5)的数据集:Lonosphere-outp(1:1.81),Pima(1:1.86)和 Credit card(1:3.67),并比较各模型对少数类的预测情况(如表 4),指标选择少数类预测的precision,Recall 以及 F1_Score(5 折平均值).表 4 不平衡数据集上各模型对少数类预测情况Tab.4 Prediction of Minority Grou

19、ps by Models on Unbalanced Datasets数据集模型Lonosphere-outp(11.81)Pima(11.86)Credit card(13.67)少数类预测情况precisionRecallF1precisionRecallF1precisionRecallF1SVM0.9100.7500.8210.6540.6190.6350.3060.1300.177FSVM_CIL0.5990.7920.6790.6260.6450.6290.3820.4680.390FSVM_IHD0.8920.7800.8280.6450.6350.6380.3020.1260.

20、172FSVM_SHAP0.9100.7750.8340.6570.6310.6420.3760.1320.189注：加粗为列最大值,下划线为次大值 7059.6116.2115.6113.2115.4152.8149.4138.6149.459.249.259.2FSVM-SHAPSVMFSVM-CIL FSVM-IHD预测正确数量均值预测正确数量均值预测正确数量均值模型FSVM-SHAPSVMFSVM-CIL FSVM-IHD模型FSVM-SHAPSVMFSVM-CIL FSVM-IHD模型(a)Lonosphere-outp(b)Pima(c)Credit card60504030201

21、00120100806040200120140160100806040200多数类预测少数类预测多数类预测少数类预测多数类预测少数类预测图 7Ionosphere、Pima、Credit Card 正/负例正确预测数量Fig.7 Number of Positive/Negative Cases Correctly Predicted onIonosphere、Pima、Credit Card 表 4 中可以看到,随着数据集的愈发失衡,FSVM_CIL 对少数类预测的优势逐渐得以体现.在各失衡数据集上,FSVM_CIL 的少数类召回率均为最高,且在失衡程度最严重的 Credit card 数据

22、集上,FSVM_CIL 对少数类的预测效果较好,超过其他模型.但结合图 7 模型对正负类样本的整体预测情况可以看出,FSVM_CIL 对多数类的预测准确率明显不如其他模型,而本文提出模型 FSVM_SHAP 虽在极不平衡数据的少数类预测上不如 FSVM_CIL,但整体来看,是优于其他模型的,对不平衡数据也有相对较好的预测能力.6结束语本文依据相近特征值在 SHAP 后置解释模型中的相似性作用力解释,利用得到的 SHAP 值统一构造了样本相对于其他类方向在所属类中的分类作用能力 SP 值,并在已知类作用方向的前提下,通过最大类间方差法自动选择出各类中处于类重叠区域的样本,达到类重叠识别的效果.仿

23、真实验证明这种基于预训练模型的类重叠识别方法,相比于无监督单类识别方法和依赖类对称分布计算距离隶属度的方法,对复杂分布尤其是非类对称分布有着更好的识别效果,具有一定的适用性.另外,基于归一化后的各类 SP 值向量即类隶属度适用于一些模糊模型,故本文构造了一种新的模糊支持向量机 FSVM_SHAP 模型,用于优化支持向量的选择,减少模糊点对决策超平面的影响.实验结果表明：FSVM_SHAP 在多个数据集上都有着最优的整体预测表现,且在不平衡数据集上也起到不错的少数类预测效果,验证了该模型的有效性.前置模型预训练后再通过 SHAP 解释模型得到的特征作用力知识可以有效地帮助学习现有的类作第 10

24、期曹玉茹，等：基于 SHAP 值的类重叠识别方法对 FSVM 的改进17 用方向并依此计算出样本类隶属度,对传统的基于空间距离的类隶属度计算方式有所改进.本文后续将致力于改进该算法流程,基于已有的快速计算 SHAP值框架,优化前置模型预训练过程,将其应用于高维、大样本的数据场景.参考文献:WU J J,XIONG H,WU P,et al.Local decomposition forrare class analysisC/Proceedings of the ThirteenthACM SIGKDD International Conference on KnowledgeDiscover

25、y and Data Mining.San Jose:ACM,2007:814-823.DOI:10.1145/1281192.1281279.1 XIONG H T，LI M，JIANG T Q，et al.Classifica-tion algorithm based on NB for class overlapping prob-lemJ.Applied Mathematics&Information Sciences，2013，7（2L）：409-415.DOI:10.12785/amis/072L05.2 TAX D M J，DUIN R P W.Support vector da

26、ta descrip-tionJ.Machine Learning，2004，54（1）：45-66.DOI:10.1023/B:MACH.0000008084.60811.49.3 YANG Z P，GAO D Q.Classification for imbalancedand overlapping classes using outlier detection andsampling techniquesJ.Applied Mathematics&Inform-ation Sciences，2013，7（1L）：375-381.DOI:10.12785/amis/071l50.4 TR

27、APPENBERG T P,BACK A D.A classificationscheme for applications with ambiguous dataC/IEEE-INNS-ENNS International Joint Conference on NeuralNetworks.Como:IEEE,2000:296-301.DOI:10.1109/IJCNN.2000.859412.5 DEVI D，BISWAS S K，PURKAYASTHA B.Learn-ing in presence of class imbalance and class overlappingby

28、using one-class SVM and undersamplingtechniqueJ.Connection Science，2019，31（2）：105-142.DOI:10.1080/09540091.2018.1560394.6 LIN C F，WANG S D.Fuzzy support vectormachinesJ.IEEE Transactions on Neural Networks，2002，13（2）：464-471.DOI:10.1109/72.991432.7 ZHOU H P，QIN H L.Self-adjusting fuzzy support vec-t

29、or machine based on analysis of potential support vectorsample pointJ.International Journal of Pattern Recog-nition and Artificial Intelligence，2019，33（10）：1959035.DOI:10.1142/S0218001419590353.8 LEE H K，KIM S B.An overlap-sensitive margin clas-9sifier for imbalanced and overlapping dataJ.ExpertSyst

30、ems with Applications，2018，98：72-83.DOI:10.1016/j.eswa.2018.01.008.BATUWITA R，PALADE V.FSVM-CIL:fuzzy sup-port vector machines for class imbalance learningJ.IEEE Transactions on Fuzzy Systems，2010，18（3）：558-571.DOI:10.1109/TFUZZ.2010.2042721.10 LUNDBERG S M,LEE S I.A unified approach to inter-pretin

31、g model predictionsC/Proceedings of the 31st In-ternational Conference on Neural Information ProcessingSystems.Long Beach:Curran Associates Inc.,2017:4768-4777.11 CORTES C，VAPNIK V.Support-vector networksJ.Machine Learning，1995，20（3）：273-297.DOI:10.1007/BF00994018.12 BEZDEK J C，EHRLICH R，FULL W.FCM:

32、thefuzzy c-means clustering algorithmJ.Computers&Geosciences，1984，10（2-3）：191-203.DOI:10.1016/0098-3004(84)90020-7.13 吴武斌，罗秋凤.基于高斯分布的非平衡FSVMJ.云南民族大学学报:自然科学版，2015，24（6）：501-505.WU W B，LUO Q F.A FSVM for the imbalanced data-set based on the Gaussian distributionJ.Journal ofYunnan Minzu University (Nat

33、ural Sciences Edition)，2015，24（6）：501-505.14 FAN Q，WANG Z，LI D D，et al.Entropy-basedfuzzy support vector machine for imbalanced datasetsJ.Knowledge-Based Systems，2017，115：87-99.DOI:10.1016/j.knosys.2016.09.032.15 吴园园，申立勇.基于类重叠度欠采样的不平衡模糊多类支持向量机J.中国科学院大学学报，2018，35（4）：536-543.DOI:10.7523/j.issn.2095-61

34、34.2018.04.017.WU Y Y，SHEN L Y.Imbalanced fuzzy multiclass sup-port vector machine algorithm based on class-overlap de-gree undersamplingJ.Journal of University of ChineseAcademy of Sciences，2018，35（4）：536-543.DOI:10.7523/j.issn.2095-6134.2018.04.017.16 SUN H J，WANG S R.Measuring the component over-

35、lapping in the Gaussian mixture modelJ.Data Miningand Knowledge Discovery，2011，23（3）：479-502.DOI:10.1007/s10618-011-0212-3.17 OTSU N.A threshold selection method from gray-levelhistogramsJ.IEEE Transactions on Systems,Man,and1818微电子学与计算机2023 年Cybernetics，1979，9（1）：62-66.DOI:10.1109/ts-mc.1979.4310076.作者简介：曹玉茹女,（1978-）,博士,副教授.研究方向为机器学习、数据挖掘.E-mail：.高洋洋男,（1998-）,硕士研究生.研究方向为机器学习、数据挖掘.李祈萱女,（1998-）,硕士研究生.研究方向为机器学习、数据挖掘.第 10 期曹玉茹，等：基于 SHAP 值的类重叠识别方法对 FSVM 的改进19

展开阅读全文