1、基于加权正则化协同表示的非均衡分类方法李艳婷王帅金军委*马江涛陈雪艳陈俊龙(郑州轻工业大学计算机与通信工程学院郑州450001)(河南工业大学人工智能与大数据学院郑州450001)(华南理工大学计算机科学与工程学院广州510641)摘要:协同表示分类器及其变种在模式识别领域展现出优越的识别性能。然而,其成功很大程度上依赖于类别的平衡分布,高度非均衡的类别分布可能会严重影响其有效性。为弥补这一不足,该文把补子空间诱导的正则项引入到协同表示模型框架,使得改进后的正则化模型更具判别性。进一步,为提高非均衡数据集上少数类的识别准确率,根据每类训练样本的表示能力提出一种基于最近子空间的类权学习算法。该算
2、法根据原始数据的先验信息自适应地获取每类的权重并且能够赋予少数类更大的权重,使得最终的分类结果对少数类更加公平。所提模型具有闭式解,这展示了该方法的计算效率。在权威公开的两类和多类非均衡数据集上的实验结果表明所提方法显著优于其他主流非均衡分类算法。关键词:非均衡分类;自适应权重;补子空间;协同表示中图分类号:TP391.4文献标识码:A文章编号:1009-5896(2023)07-2571-09DOI:10.11999/JEIT220753Imbalanced Classification Based on Weighted RegularizationCollaborative Repres
3、entationLIYantingWANGShuaiJINJunweiMAJiangtaoCHENXueyanCHENJunlong(College of Computer and Communication Engineering,Zhengzhou University of Light Industry,Zhengzhou 450001,China)(College of Artifificial Intelligence and Big Data,Henan University of Technology,Zhengzhou 450001,China)(School of Compu
4、ter Science and Engineering,South China University of Technology,Guangzhou 510641,China)Abstract:Collaborativerepresentationbasedclassifieranditsvariantsexhibitsuperiorrecognitionperformanceinthefieldofpatternrecognition.However,theirsuccessreliesgreatlyonthebalanceddistributionofclasses,andahighlyi
5、mbalancedclassdistributionmayseriouslyaffecttheireffectiveness.Tomakeupforthisdefect,thispaperintroducestheregularizationterminducedbythecomplementedsubspaceintotheframeworkofcollaborativerepresentationmodel,whichmakestheimprovedregularizationmodelmorediscriminative.Furthermore,inordertoimprovethere
6、cognitionaccuracyoftheminorityclassesonimbalanceddatasets,aclassweightlearningalgorithmbasedonthenearestsubspaceisproposedaccordingtotherepresentationabilityofeachclassoftrainingsamples.Thealgorithmobtainsadaptivelytheweightofeachclassandcanassigngreaterweightstotheminorityclasses,sothatthefinalclas
7、sificationresultsaremorefairtotheminorityclasses.Theproposedmodelhasaclosed-formsolution,whichdemonstratesitscomputationalefficiency.Experimentalresultsonauthoritativepublicbinary-classandmulti-classimbalanceddatasetsshowthattheproposedmethodoutperformssignificantlyothermainstreamimbalancedclassific
8、ationalgorithms.Key words:Imbalancedclassification;Adaptiveweight;Complementedsubspace;Collaborativerepresentation收稿日期:2022-06-27;改回日期:2023-03-30;网络出版:2023-03-31*通信作者:金军委基金项目:国家自然科学基金(62106233,62106068),河南省科技攻关项目(222102210058,222102210027,202102210122)FoundationItems:TheNationalNaturalScienceFoundat
9、ionofChina(62106233,62106068),TheScienceandTechnologyResearchProjectofHenanProvince(222102210058,222102210027,202102210122)第45卷第7期电子与信息学报Vol.45No.72023年7月JournalofElectronics&InformationTechnologyJul.20231 引言由于现实世界中非均衡数据集的普遍存在性,非均衡分类算法的研究已成为机器学习和模式识别领域的热点问题。非均衡分类旨在实现整个数据集特别是少数类的精准预测,其应用场景包括故障检测、疾病诊断
10、、信息安全等1。大多数传统分类算法是在数据集均衡分布的假设下运行的,当它们处理非均衡问题时,其分类结果通常偏向于占主导地位的多数类,而对少数类的识别准确率偏低2,3。然而在实践中,少数类通常比多数类包含更重要且更有价值的信息,一旦误判可能会产生严重后果。例如,将入侵判断为正常行为可能引发重大网络安全事故;将癌症患者误诊为健康人会延误最佳治疗时间并威胁患者生命。因此,设计出有效的非均衡分类方法十分必要且迫切4。现有的非均衡分类方法大致分为基于数据层面和基于算法层面两大类型1。前者的核心思想是通过采样技术均衡化类别分布来提高分类性能;而后者主要是优化现有的分类算法使其适应非均衡分类问题5。在各种采
11、样技术中,最具代表性的是随机欠采样(RandomUnder-Sampling,RUS)和随机过采样(RandomOver-Sampling,ROS)。它们分别从多数类中随机删除样本和从少数类中随机复制实例以缩小少数类和多数类间的差距。但是RUS可能会删除一些重要的样本,而ROS可能会添加冗余信息。因此,开发合适的采样技术对于非均衡学习至关重要。到目前为止,科研人员已在欠采样中引入了数据清理和集成学习等一系列技术以提高欠采样性能6。有结果表明,对于不平衡率大于10的严重非平衡数据集,过采样通常比欠采样更有效。因此,越来越多的科研人员集中于研究过采样方法,其中一个典型算法是少数类合成过采样(Syn
12、theticMinorityOver-samplingTEchnique,SMOTE)7。它随机选取少数类样本作为采样种子通过线性插值来添加少数类实例,但其有可能合成无效的少数类数据。随后,SMOTE的很多变种比如自适应合成采样(ADAptiveSYNtheticsampling,ADASYN)8、多数类加权少数类采样(MajorityWeightedMinorityOversamplingTEchnique,MWMOTE)9、SMOTEENN10等方法被提出以生成高质量的少数类实例。目前,SMOTE的改进算法主要集中在如何选取信息丰富的少数类样本作为采样种子和如何选择合适的插值方式来合成新的
13、数据。Douzas等人11提出在每个选定的少数类样本的适当几何区域内合成新的样本以提升SMOTE的合成机制。Wang等人12提出一种基于局部分布的少数类过采样方法来选择信息丰富的少数类样本作为种子。Chen等人13基于K-means聚类自适应地选取采样种子来合成少数类数据。然而这些方法都是通过线性插值来合成少数类实例,Xie等人14基于非线性的Gauss分布模型进行插值从而进一步提高了SMOTE的性能。但不论过采样还是欠采样都改变了原始数据的分布,破坏了原始数据间的关系,使得最终的识别精度无法得到保证。本文致力于探究基于算法层面的方法。在基于算法层面中,最具代表性的类型是基于代价敏感的非均衡学
14、习方法15。该类型方法通过在决策阶段对错误分类的少数类样本赋予更高的惩罚来提高分类准确率。文献16在极限学习机的基础上基于代价敏感学习提出加权极限学习机(WeightedExtremeLearningMachine,WELM)算法。进一步,文献17提出方差约束的加权极限学习机(Variances-constrainedWeightedExtremeLear-ningMachine,VW-ELM)来解决高度非均衡分类问题。合理代价矩阵的构建对于此类方法至关重要。在实践中,如何确定合适的代价矩阵仍然是项艰巨的任务。另一种类型的方法通过修改传统分类方法的目标函数使分类器对少数类更公平,其中稀疏表示的
15、变种基于稀疏监督表示的分类器(SpareSupervisedRepresentation-basedClassifier,SSRC)1表现出极大的优势。它通过引入标签信息和权重提高了少数类的分类准确率,但极高的计算复杂度限制其进一步发展和应用。受此启发,本文选用高效且复杂度低的协同表示分类器(CollaborativeRep-resentation-basedClassifier,CRC)18作为基础模型,在延续它已有优势的基础上着重弥补其在少数类上分类的不足。本文提出一种加权正则化协同表示(WeightedRegularizationCollaborativeRep-resentation,
16、WRCR)分类方法。首先分析现有的CRC方法及其变种的缺陷,然后从集合论的角度引入基于补子空间的正则项。进而根据每类训练样本对测试样本的表示能力赋予少数类更大的权重以提高整体特别是少数类的分类准确率。本文的其余部分结构如下。第2节提出基于补子空间的加权正则化协同表示模型WRCR并给出它的优化求解过程。第3节给出实验对比结果和分析。第4节对全文工作进行总结。2 加权正则化协同表示模型本节详细介绍所提的WRCR模型。首先在CRC中引入由补子空间诱导的正则项,然后提出一种自适应类权学习方法,最后给出WRCR的优2572电子与信息学报第45卷D=D1,.,Dn,.,DNDn RdMnnNdMnnM=M
17、1+M2+.+MNx Rdc=c1;.;cn;.;cNxDc=c1;.;cn;.;cNxDcnxDncnxDnInn化求解和分类准则。这里先给出本文常用的符号。表 示 整 个 训 练 样 本 集,表示第 类的训练样本集,其中表示总类别,表示训练样本的特征维度,表示第类训练样本的个数。表示所有训练样本的个数。表示一个测试样本,是 在上的表示系数向量,是 在上的最优表示系数向量。是 在上的表示系数向量,是 在上最优表示系数向量。是单位矩阵,和 表示正则化参数,表示第 类的权重。2.1 WRCR模型xk|x Dkck|22x Dkck22Nn=1,n=kNn=1|x Dncn|22x Dkck22N
18、n=1,n=kNn=1|x Dncn|22E=spanDEn=spanDnnCRC模型由于简单、便于操作、识别准确率高已成为均衡分类问题的研究热点。然而,该方法对于解决非均衡数据分类问题并没有明显优势。图1的两个混淆矩阵显示CRC在两类以及多类非均衡数据上表现不佳。主要原因是其模型把所有的训练样本看成一个整体来分类,没有考虑少数类与多数类间样本个数的差异性。作为CRC的变种,竞争协同表示分类(Competitive-CollaborativeRep-resentationbasedClassification,CCRC)19模型虽然在每类样本间引入了竞争机制,但该方法仍具有一定缺陷。假设测试样
19、本的真实标签是,CCRC希望类内损失尽可能小,类间损失尽可能大。由于真实标签未知,该模型最小化了所有的损失之和。这似乎是合理的,但事实并非如此。由CCRC的分类准则可知,类间损失越大越有利于分类,这与CCRC的最小化正则项相违背。本文从集合论的角度提出一种更具判别性的基于补子空间的CRC模型。由线性表示理论的假设可知,和分别表示整个训练样本集张成的全空间和第 类训练样本集张成的子空间。首先定义它们的和Em+En=p+q:p Em,q En(1)则Em+En=spanDm Dn(2)E因此,全空间 可表示为所有子空间之和E=E1+E2+.+EN(3)E EnEnE En=spanDnDnnx D
20、ncn22Nn=1,n=kE EnNn=1,n=kxn=kEk E Enx Dncn22Nn=1,n=kcnDnxNn=1,n=kx Dncn22xx Dkck22我们将定义为的补子空间,则,其中是指剔除第 类训练样本后剩余的训练样本集。那么反映了补子空间对测试样 的表示能力。由于当时,所以损失项应该越小越好,这里是对的 表 示 系 数。因 此 将最小化是合理的。另外,由于测试样本 真实标签未知,则需要加上的最小化。目标函数初步确定为c=argmincx Dc22+c22+Nn=1x Dncn22(4)尽管上述基于补子空间的协同表示模型继承了CRC简单高效的特性并提高了判别性,但其在处理非均衡
21、分类问题时没有充分考虑类别分布信息,这会导致多数类的表示能力远超过少数类,从而使得最终的分类结果倾向于多数类。特别对于严重非均衡数据集,少数类由于训练样本个数太少,对测试样本的表示能力极低,从而进一步加大了少数类的重构误差,不利于最终的分类。利用这些先验信息,我们基于最近子空间分类(NearestSubspaceClassification,NSC)20方法赋予不同类别不同的权重,并且增大少数类的权重,使得最终的分类结果对少数类更加公平。目标函数表示为c=argmincx Dc22+c22+Nn=1nx Dncn22(5)图1CRC在两个非均衡数据集上的混淆矩阵第7期李艳婷等:基于加权正则化协
22、同表示的非均衡分类方法2573n(n=1,2,.,N)其中,是要学习的类权。我们把该模型称为加权正则化协同表示(WRCR)模型。2.2 基于NSC的类权学习x Dncn2Nn=1nx我们利用NSC中每类训练样本集对测试样本的重构误差来学习类权。由NSC模型可知,第 类训练样本对测试样本 的最优表示系数为 cn=(DTnDn)1DTnx(6)nDnx第 类训练样本集对 的重构误差为rn=x Dn cn2(7)我们定义最小重构误差rmin=minrn(8)rnDnxxnn显然,越小,对 的表示能力越强,属于第类训练样本空间的概率就越大。针对非均衡分类问题,我们进一步发现少数类对测试样本的表示能力一
23、般弱于多数类。这里,用图2展示的实验结果来解释这一现象。具体地,我们选用2个两类数据集Glass6,Newthyroid1和2个3类数据集Wine,Newthyroid作为基准数据集。首先计算每个测试样本在各类训练集中的重构误差占总体重构误差的比重,然后取所有测试样本的重构误差所占比重的平均值。如图2所示,对于两类数据集,多数类的重构误差远小于少数类的。对于3类数据集,我们分别标注各类为少数类、中间类、多数类,则可看出中间类的重构误差小于少数类的,多数类的重构误差小于中间类的。这可说明不论是两分类还是多分类问题,少数类的重构误差一般大于多数类的。也即测试样本属于少数类的概率一般小于属于多数类的
24、概率。基于此,定义各类的类别权重为n=exp(rmin rn)(9)0其中,是调节类权的伸缩参数。显然该方法r1 r2rmin=r21=exp(r2 r1)1D12NM1 M2.r2.rNrmin=rNn=exp(rN rn)1 2.M M2.M MNNn=1nx Dncn22Dnn能够赋予不同类不同的权重。不仅如此,它还能够使少数类获得更大的权重。这里,以两分类和多分类的情况分别来说明。首先,对于两分类,我们假设第1类是少数类。则由前面分析可知,重构误差。那 么。所 以,。又因为且,WR-CR中引入的正则项可写为。由 于且第1类训练样本集的类权为,我们得到基于NSC的类权学习算法能够赋予少数
25、类更大的权重。对于多分类,假设总类别数为且各类的训练样本个数,其中表示第 类训练样 本 的 个 数。则 我 们 得 到 重 构 误 差。那么,。因此权重。由于表示的是剔除了第 类训练样本后剩余的训练样本集,则的样本个数为,其中表示训练样本总数。那么。因此WR-CR中引入的正则项使得训练样本集的样本个数越小,它所对应的权重越大。2.3 WRCR的优化求解和分类准则Dn=D1,.,Dn1,0,Dn+1,.,DN为解决WRCR模型中目标函数的最小化问题,首先定义一个新的矩阵。下面的定理保证了该模型具有闭式解。n定理1给出类权,则求解WRCR模型c=(DTD+Nn=1nDTnDn+I)1(D+Nn=1
26、nDn)Tx(10)c证明我们看到WRCR的目标函数是关于 的凸可微函数,所以对其求导获得的极值点即为最小值点。为了便于计算我们将目标函数定义为=x Dc22+c22+Nn=1nx Dncn22(11)则对其求导并令导数为0得到c=2DT(x Dc)+2c+Nn=1n2DTn(x Dnc)=0所以图2测试样本在各类训练集中的重构误差占总体重构误差的比重2574电子与信息学报第45卷c=(DTD+Nn=1nDTnDn+I)1(D+Nn=1nDn)Tx证毕c求出最优表示系数后,我们计算每类的重构误差rn(x)=x Dncn2,n=1,2,.,N(12)x通过最小重构误差准则来确定 的类别label
27、(x)=argminnrn(x)(13)2.4 计算复杂度ccO(dM2+M3)dM由WRCR算法可知主要的计算复杂度取决于最优表示系数向量的求解。而矩阵的乘法和求逆运算占据的主要计算量。因此WRCR的计算复杂度为,其中 表示训练样本的特征维度,表示训练样本集的总个数。它和CRC具有同样低的计算复杂度,能够确保该方法的高效性。3 实验结果本文实验使用UCI21中的非均衡数据集进行评估,通过与基于CRC的分类方法和多个非均衡分类方法的对比来说明所提方法的有效性。3.1 数据集本文实验使用了UCI的9个两类和7个多类的非均衡数据集。这些数据集的详细特征信息如表1所述。类别分布表示每类样本的个数之比
28、,不平衡率表示最多类的样本个数与最少类的样本个数之比。由表1看出,我们使用的数据库的不平衡率跨越范围较大,从1.10变动到71.51。不平衡率越高,准确分类的困难程度越大。3.2 实验设置F-measureG-meanF-measureG-mean ,101,102,.,10151,2,.,10,102,103,104,105,106在处理非均衡分类问题时,分类准确率不能有效评估非均衡分类算法的性能。这里,我们采用和来度量分类性能。不论两分类还是多分类,和越大,算法的分类性能越高。实验中我们使用5折交叉验证法,每个数据集被随机分为5个子集,选出1个子集作为测试集其余4个作为训练集。此方法被随机
29、试验10次,取10次的平均值作为最终实验结果。在具体实验中,每个对比模型所涉及的参数都经过仔细调节使实验结果达到最优。对于所提的WRCR模型,,3个参数对模型的性能评估至关重要。这里,我们设置的候选集为,的候选集为。对这3个参数实施网格搜索算法来获取最优的实验结果。所有实验均以MATLAB为编程语言在CPUi5-8500和运行内存7.84GB的笔记本端进行。3.3 与基于CRC的分类方法的对比由于WRCR方法是以CRC为基础模型通过借鉴CCRC的竞争机制和基于NSC赋予类权来解决非均衡分类问题,我们给出它和CRC,CCRC,NSC表 1 16个非均衡数据集的详细信息数据集类别样本总数维度类别分
30、布不平衡率Wine31781359:71:481.48Glass5221499:20522.78Glass62214929:1856.38Newthyroid12215535:1805.14Newthyroid32155150:35:305.00Ecoli32336735:3018.60Ecoli83367143:77:2:2:35:20:5:5271.51Dermatology636633111:60:71:48:48:205.55Penbased101 10016115:114:114:106:114:106:105:115:105:1061.10Shuttle0218299123:1 7
31、0613.87Ecoli0vs12220777:1431.86Balance-scale3625449:288:2885.88ShuttleC0vsC4218299123:1 70613.86Glass42214913:20115.46Glass3163470:76:174.47Glass016vs22192917:17510.29第7期李艳婷等:基于加权正则化协同表示的非均衡分类方法2575F-measureG-mean3个方法的实验对比结果以说明其有效性。图3以直方图的形式直观地展示了这4个基于CRC的方法在10个数据集上的和值。显然看出,NSC表现最差,CRC的分类结果略高于NSC,CC
32、RC相比于CRC有明显提升,而所提的WR-CR方法显著高于其它3种方法。为了展示WR-CR在特定类别中的性能,图4给出了它在两类数据集Glass6和多类数据集Wine上的各类识别结果。与图1的CRC方法相比,WRCR显著提高了少数类样本的识别准确率。WRCR的优越识别性能主要是由于以下两个方面:一是在CRC模型中加入了更具判别性的基于补子空间的正则项;二是赋予了不同类别不同的权重使得分类结果对少数类更加公平。除了分类准确率,我们还测试了4种方法的运算效率。表2列出了Glass5数据集上一个测试样本的运行时间。可看到,WRCR运算速度很快并且和NSC,CRC,CCRC消耗了同等量级的运算时间,这
33、也验证了WRCR算法的高效性。3.4 与非均衡分类方法的对比F-measureG-meanF-measureG-meanF-measureG-mean为了展示所提方法的有效性,本文将其与经典的非均衡分类方法RUS,ADASYN8,SMOTE7,MWMOTE9,WELM16,SMOTEENN10,Easy-Ensemble22进行对比。表3和表4分别给出了WR-CR与这些非均衡分类方法在和上的对比结果。最好的实验结果加粗显示,可清楚看到WRCR在其中14个数据集上的和值都高于对比方法。在另两个数据集Glass6和Ecoli上,虽然它的稍低于对比方法,但远超其他方法。另外,WRCR在Wine,Gl
34、ass5,Newthyroid1,Ecoli0vs1上的识别准确率能够达到100%。特别对于不平衡率高达22.78的严重非均衡数据集Glass5,WRCR不仅能够实现每类样本的精准识别,而且比其他方法的识别效果提升10%以上。为了进一步展现WRCR方法的优越性能,我们将它和5种先进的非均衡分类方法GDO14,表 2 不同方法在Glass5数据集上的运行时间(s)NSCCRCCCRCWRCR运行时间(s)3.191034.721037.351038.07103图3基于CRC的不同方法在10个非均衡数据集上的对比图4WRCR在两个数据集上的混淆矩阵2576电子与信息学报第45卷G-meanVW-E
35、LM17,GEP23,GMBSCL5和GSE6进行对比。值得一提的是这些对比方法都是近3年发表在国际Top期刊上并声称在我们使用的某些数据集上获得了最好的性能。这里,我们直接从这些方法的原论文中引用其实验结果。表5总结了不同方法在4个共有数据集Glass5,Newthyroid1,Ecoli0vs1,Ecoli3上的结果。可以发现,WRCR表现最好,这充分证实了所提方法可达到最先进的性能。综上所述,所提方法WRCR能够提高非均衡数据集特别是少数类的分类准确率,从而有效解决非均衡分类问题。4 结论本文提出一种加权正则化协同表示的非均衡分类算法。它解决了CRC及其变种在非均衡数据集上分类效果不佳的
36、问题。其关键是在CRC建模过表 3 WRCR与经典非均衡算法在16个数据集上的F-measure(%)值对比数据集ADASYNSMOTEENNWELMRUSSMOTEMWMOTEEasyEnsembleWRCRWine89.0187.1288.6389.0589.0389.8289.51100.00Glass577.4477.8664.3187.1568.7279.2288.42100.00Glass688.6189.2382.7282.5183.1483.5285.4290.04Newthyroid197.5297.9397.0594.5295.4692.1794.34100.00Newth
37、yroid92.5592.6190.4493.2691.7292.8193.2294.77Ecoli387.6186.6388.6284.1387.4681.1388.2298.35Ecoli29.9138.9230.1435.3233.9034.8227.1453.10Dermatology92.8189.9191.3392.3792.2492.1178.7296.25Penbased95.6397.5297.8597.3198.4095.8290.5298.40Shuttle088.4284.6297.4180.4382.7281.3289.4197.87Ecoli0vs195.7294.
38、1798.5191.3494.6996.5697.75100.00Balance-scale54.2652.4751.3847.5950.5854.6355.7661.70ShuttleC0vsC493.9689.3596.4791.2585.1993.4281.3897.89Glass490.3393.6691.3492.4890.3394.1694.4296.18Glass48.5951.3654.8148.7549.6550.2351.4856.06Glass016vs258.1159.1983.7762.4761.3669.8266.7884.09表 4 WRCR与经典非均衡算法在16
39、个数据集上的G-mean(%)值对比数据集ADASYNSMOTEENNWELMRUSSMOTEMWMOTEEasyEnsembleWRCRWine84.1180.6394.5183.1583.4184.5388.62100.00Glass588.1390.5288.9291.2487.5289.7488.64100.00Glass688.6489.2282.7382.5383.1683.0185.4183.33Newthyroid195.6598.2397.4496.8295.0794.4294.33100.00Newthyroid90.5390.4289.9187.2391.7492.438
40、9.1493.63Ecoli383.0282.5184.8382.3284.2382.8384.6387.49Ecoli62.3146.5438.9236.7460.0560.2233.8650.07Dermatology87.3281.4387.2576.1386.3489.7374.1493.98Penbased91.8395.5295.3691.5194.3493.1587.9297.18Shuttle087.6197.2197.4197.6584.8185.2092.4197.87Ecoli0vs191.5490.3498.5589.2391.3894.7694.84100.00Bal
41、ance-scale52.8354.3750.6548.9854.7652.4255.7861.68ShuttleC0vsC492.5186.7692.3690.1883.5791.8387.3897.87Glass454.4751.8561.1853.3252.4957.3959.4266.66Glass42.3640.4639.4736.5339.7638.7641.0444.01Glass016vs245.4847.6947.8945.8349.6751.2853.8966.66第7期李艳婷等:基于加权正则化协同表示的非均衡分类方法2577程中引入由补子空间诱导的正则项。进一步为了提高少
42、数类的识别准确率,本文提出了一种类权学习算法。该算法根据每类训练样本的表示能力自适应地学习每类的权重,从而赋予少数类更大的权重。所提模型能够以闭式解的形式有效解决。在不同非均衡数据集上的实验结果验证了所提方法的有效性。参 考 文 献SHU Ting,ZHANG B,and TANG Yuanyan.Sparsesupervisedrepresentation-basedclassifierforuncontrolledandimbalancedclassificationJ.IEEE Transactions onNeural Networks and Learning Systems,202
43、0,31(8):28472856.doi:10.1109/TNNLS.2018.2884444.1JINJunwei,LIYanting,andCHENCLP.PatternclassificationwithcorruptedlabelingviarobustbroadlearningsystemJ.IEEE Transactions on Knowledge andData Engineering,2022,34(10):49594971.doi:10.1109/TKDE.2021.3049540.2JIN Junwei,LI Yanting,YANG Tiejun,et al.Discr
44、iminativegroup-sparsityconstrainedbroadlearningsystemforvisualrecognitionJ.Information Sciences,2021,576:800818.doi:10.1016/j.ins.2021.06.008.3JINJunwei,QINZhenhao,YUDengxiu,et al.Regularizeddiscriminative broad learning system for imageclassificationJ.Knowledge-Based Systems,2022,251:109306.doi:10.
45、1016/j.knosys.2022.109306.4ZHUZonghai,WANGZhe,LIDongdong,et al.GlobalizedmultiplebalancedsubsetswithcollaborativelearningforimbalanceddataJ.IEEE Transactions on Cybernetics,2022,52(4):24072417.doi:10.1109/TCYB.2020.3001158.5ZHUZonghai,WANGZhe,LIDongdong,et al.Geometricstructuralensemblelearningforim
46、balancedproblemsJ.IEEE Transactions on Cybernetics,2020,50(4):16171629.doi:10.1109/TCYB.2018.2877663.6CHAWLA N V,BOWYER K W,HALL L O,et al.SMOTE:Syntheticminorityover-samplingtechniqueJ.Journal of Artificial Intelligence Research,2002,16:321357.doi:10.1613/jair.953.7HEHaibo,BAIYang,GARCIAEA,et al.AD
47、ASYN:AdaptivesyntheticsamplingapproachforimbalancedlearningC.Proceedings of the International JointConferenceonNeuralNetworks,HongKong,China,2008:813221328.doi:10.1109/IJCNN.2008.4633969.BARUAS,ISLAMMM,YAOXin,et al.MWMOTE:MajorityweightedminorityoversamplingtechniqueforimbalanceddatasetlearningJ.IEE
48、E Transactions onKnowledge and Data Engineering,2014,26(2):405425.doi:10.1109/TKDE.2012.232.9BATISTAGEAPA,PRATIRC,andMONARDMC.Astudyofthebehaviorofseveralmethodsforbalancingmachine learning training dataJ.ACM SIGKDDExplorations Newsletter,2004,6(1):2029.doi:10.1145/1007730.1007735.10DOUZAS G and BAC
49、AO F.Geometric SMOTE ageometricallyenhanceddrop-inreplacementforSMOTEJ.Information Sciences,2019,501:118135.doi:10.1016/j.ins.2019.06.007.11WANGXinyue,XUJian,ZENGTieyong,et al.Localdistribution-basedadaptiveminorityoversamplingforimbalanceddataclassificationJ.Neurocomputing,2021,422:200213.doi:10.10
50、16/j.neucom.2020.05.030.12CHEN Baiyun,XIA Shuyin,CHEN Zizhong,et al.RSMOTE:Aself-adaptiverobustSMOTEforimbalancedproblemswithlabelnoiseJ.Information Sciences,2021,553:397428.doi:10.1016/j.ins.2020.10.013.13XIEYuxi,QIUMin,ZHANGHaibo,et al.Gaussiandistributionbasedoversamplingforimbalanceddataclassifi