基于梯度惩罚生成对抗网络的过采样算法.pdf

资源描述

1、文章编号：1007 6735(2023)03 0235 09DOI:10.13255/ki.jusst.20220307005基于梯度惩罚生成对抗网络的过采样算法陶家亮1，魏国亮2，宋燕3，窦军3，穆伟蒙1（1.上海理工大学理学院，上海200093；2.上海理工大学管理学院，上海200093；3.上海理工大学光电信息与计算机工程学院，上海200093）摘要：在不平衡数据分类问题中，为了更注重学习原始样本的概率密度分布，提出基于梯度惩罚生成对抗网络的过采样算法（OGPG）。该算法首先引入生成对抗网络（GAN），有效地学习原始数据的概率分布；其次，采用梯度惩罚对判别器输入项的梯度二范数进行约束，降

2、低了 GAN 易出现的过拟合和梯度消失，合理地生成新样本。实验部分，在 14 个公开数据集上运用 k 近邻和决策树分类器对比其他过采样算法，在评价指标上均有显著提升，并利用 Wilcoxon 符号秩检验验证了该算法与对比算法在统计学上的差异。结果表明该算法具有良好的有效性和通用性。关键词：不平衡数据；过采样算法；概率密度分布；生成对抗网络；梯度惩罚中图分类号：TP181文献标志码：AOversampling algorithm based on gradient penalty generativeadversarial networkTAO Jialiang1，WEI Guoliang2，S

3、ONG Yan3，DOU Jun3，MU Weimeng1(1.College of Science,University of Shanghai for Science and Technology,Shanghai 200093,China;2.Business School,Universityof Shanghai for Science and Technology,Shanghai 200093,China;3.School of Optical-Electrical and Computer Engineering,University of Shanghai for Scien

4、ce and Technology,Shanghai 200093,China)Abstract:In order to pay more attention to learning for probability density distribution of originalsamplesinimbalanceddataclassificationproblem,anoversamplingalgorithmbasedonthegradientpenaltygenerationadversarialnetwork(OGPG)wasproposed.Firstly,generationadv

5、ersarialnetwork(GAN)wasadoptedtoeffectivelylearntheprobabilitydensitydistributionoforiginaldata.Secondly,thegradientpenaltywasusedtoconstrainthegradienttwo-normoftheinputtermofdiscriminator,which reduced the overfitting and gradient disappearance that appeared easily in GAN,so that thenewsampleswere

6、reasonablygenerated.Intheexperiment,thek-nearestneighboranddecisiontreeclassifiers were adopted to compare the other oversampling algorithms,the evaluation indicatorsweresignificantlyimproved.TheWilcoxonsigned-ranktestwasusedtoverifythestatisticaldifferencebetweenthisalgorithmandthecomparisonalgorit

7、hm.Theresultsshowthatthisalgorithmhasgoodeffectivenessandgenerality.上海理工大学学报第45卷第3期J.UniversityofShanghaiforScienceandTechnologyVol.45No.32023收稿日期：20220307基金项目：国家自然科学基金资助项目(61873169)；上海市“科技创新行动计划”国内科技合作项目(20015801100)第一作者：陶家亮（1997），男，硕士研究生研究方向：大数据分析E-mail：通信作者：魏国亮（1973），男，教授研究方向：大数据分析、多智能体协同控

8、制E-mail：Keywords:imbalanced data;oversampling algorithm;probability density distribution;GAN;gradient penalty不平衡数据的分类问题在数据挖掘和机器学习领域中一直倍受关注。美国人工智能协会和国际机器学习会议分别就这个问题举行了研讨会。现实生活中，很多领域都会出现数据不平衡的问题，例如金融诈骗1、精准医疗2、故障诊断3、人脸识别4-5等。数据不平衡6是指数据中某些类别的样本数量远比其他类别的多。通常情况下，少数类数据中包含更多重要的信息，是研究者重点关注对象。目前处理不平衡数据分类的方法可以

9、分为两大类：基于算法层面7和基于数据层面8。算法层面主要包括代价敏感学习9和集成学习10：代价敏感学习通过最小化贝叶斯风险确定代价函数，以最小化误分类代价为目标，但是误分类代价的先验信息是难以获得的；集成学习是将多个分类器的分类结果结合在一起，提高集成分类器的精度，进而关注少数类的重要性。但这两类算法没有改变数据分布。数据层面主要包括欠采样技术11、过采样技术12。数据层面的技术主要通过改变样本比例，例如欠采样技术主要是通过减少多数类样本，使得多数类样本和少数类样本趋于平衡，但随机地舍弃样本可能会丢失潜在的有用信息。随机过采样方法通过随机复制少数类样本，但是该方法只是简单的复制样本，增加了过拟

10、合的风险。目前，过采样技术的应用较为广泛，因为该技术不仅保证了数据平衡，还没有损失原始数据的有效信息。过采样技术的研究有很多，例如 Chawla 等13提出了合成少数类过采样技术(syntheticminorityoversamplingtechnique,SMOTE)，该算法在少数类样本中与其近邻样本之间线性插值合成新样本，没有考虑少数类样本内部的数据分布情况。He 等14提出了自适应合成（adaptivesynthetic,ADASYN）过采样方法，该算法通过样本点的学习难易程度给少数类样本赋予权值。此外，为了加强对边界样本的学习，边界自适应合成过采样技术15（B-SMOTE1,B-SMO

11、TE2）被提出。随着深度学习的高速发展，基于网络过采样的算法应运而生，Goodfellow 等16提出生成对抗网络（generativeadversarialnetwork,GAN）模型，通过生成器网络学习原始数据的分布。Douzas 等17提出利用条件生成对抗网络学习原始数据的分布，再对少数类进行过采样算法。何新林等18提出了基于隐变量后验生成对抗网络的过采样算法（latentposteriorbasedGANforoversampling,LGOS），该算法引入隐变量模型，降低了高斯噪声对生成样本的随机性影响。但GAN 在训练过程易出现过拟合或梯度消失的风险，可以对损失函数施加

12、惩罚项19，降低风险的发生。上述方法虽然在分类精度上有所提升，但没有充分考虑原始数据的分布，进而影响合成样本的安全性以及分类结果。针对上述问题，本文提出了一种基于梯度惩罚生成对抗网络的过采样算法（oversamplingalgorithm based on the gradient penalty generationadversarialnetwork，OGPG）。该算法引入生成对抗网络，通过网络的生成器模型有效地学习原始数据的概率密度分布；运用梯度损失模型对生成对抗网络判别器输入项的梯度二范数进行约束，降低过拟合和梯度消失的风险；在 14 个公共数据集上采用两个分类器与多种算法进行了对比实

13、验，并利用 Wilcoxon 符号秩检验20验证了所提算法的有效性和通用性。1 生成对抗网络模型及梯度惩罚模型生成对抗网络（generativeadversarialnetwork，GAN）模型是一种无监督的生成模型，由生成器和判别器网络组成，能够有效地学习原始数据的概率密度分布。梯度惩罚模型是一种基于梯度损失的约束模型，降低了生成对抗网络出现过拟合和梯度消失的风险。1.1 生成对抗网络模型GAN 是 Goodfellow 等提出来的一种神经网络模型，也是一种无监督的生成模型。它由生成器网络和判别器网络两部分组成，网络模型结构如图 1 所示。GAN 也是一个相互博弈的对抗模型，是判别器和生成器

14、之间的相互博弈。其中，生成器是通过对先验噪声的学习，学习原始数据的概率密度分布；判别器主要对输入数据进行判断，判断数据是原始数据或者是生成器网络生成的数236上海理工大学学报2023年第45卷G(z)D(x)据，输出的是 01 之间的一个概率值。设噪声样本为 z，生成器通过映射将噪声样本转化为生成样本。判别器输出为 01 之间的概率值，可得其损失函数为minGmaxDV(G,D)=ExPrlog(D(x)+EzPzlog(1D(G(z)（1）式中：E 表示期望值；Pr表示真实样本 x 的概率密度分布；Pz表示噪声样本 z 的概率密度分布。对于 GAN 模型的训练阶段可以大致分为 3 个阶段，分

15、别记为初始阶段、恰当阶段和过拟合阶段。为了能更清楚地解释上述现象，通过公开的MNIST 手写数字体数据集进行了实验验证，结果见图 2。MNIST 数据集包含 60000 个训练集样本和 10000 个测试集样本，采用数据集的训练集样本对网络进行训练。初始阶段对应训练为 500次；恰当阶段对应训练为 3000 次；过拟合阶段对应训练为 8000 次。1.2 梯度惩罚模型梯度惩罚模型是 Gulrajani 等21提出来的针对WassersteinGAN 算法22存在生成样本的质量较差和模型不收敛等问题的约束惩罚算法模型。Pr，Pgf对于该梯度惩罚模型，设是紧凑度量

16、空间的两个概率分布，是可微的 L-利普希茨函数，处理下列优化问题：maxfLEyPrf(y)ExPgf(x)（2）Pr，Pg设是的联合优化组合函数，定义距离度量Wasserstein 距离为W(Pr,Pg)=inf(Pr,Pg)E(x,y)(Pr,Pg)xy（3）(Pr,Pg)(x,y)f式中：y 为符合联合分布的真实样本；是联合分布的集合。由于可微，则有(x=y)=0（4）输出生成器输入输出判别器输入相互对抗原始数据和噪声数据输出和原始数据相同分布的数据输出原始数据分布和生成数据分布样本的概率值满足先验分布的噪声数据图 1 生成对抗网络图示Fig.1 Graph of GAN(a)初始阶

17、段(b)恰当阶段(c)过拟合阶段图 2 MNIST 数据集实验结果Fig.2 Experimental results of MNIST dataset第3期陶家亮，等：基于梯度惩罚生成对抗网络的过采样算法237xt=tx+(1t)y,t 0,1（5）P(x,y)f(xt)yxtyxt=1（6）即，对于所有的 L-利普希茨函数几乎都满足，若该函数可微则处处都有梯度，且梯度的范数值为1。根据上述理论知识，Ishaan 等研究者将梯度范数约束在不大于 1 的范围之内，提出如下新的约束惩罚：LGP=E xP x(xDw(x)21)2（7）LGP x xDw(x)2D(x;w)式中：表示梯度惩罚损失；

18、表示训练样本；表示 WassersteinGAN 中判别器网络输入项梯度的二范数；是梯度惩罚因子；w 是判别器网络的参数，即。2 基于梯度惩罚生成对抗网络的过采样算法由于传统的过采样算法没有充分考虑原始样本的概率密度分布，且易导致生成低质量的样本，因此本文引入生成对抗网络模型和梯度惩罚模型，提出了一种基于梯度惩罚生成对抗网络的过采样算法（OGPG）来解决上述问题。在 OGPG 算法中，为防止少数类样本过少导致网络模型学习不到原始数据的有效信息，先对原始数据中的少类样本自适应生成部分样本。该算法主要包括 3 个步骤。a.去除噪声样本。在数据预处理阶段，先处理原始数据中存在的噪声数据。对每个样本采

19、用 k 近邻算法，计算样本点与其他样本点的距离，找到该样本点的k 个最近邻样本点，如果该样本点的标签与 k 近邻中的所有样本点的标签不一致，则认定为噪声数据，并删除该样本点。b.合成部分少数类样本。在步骤(a)的基础上，通过线性插值优先合成部分少数类样本数据，通过合成后的样本，学习样本的均值和方差，以便后续训练网络生成新的样本。TmajTmin首先，设 T 为去噪后原始数据的总样本集合，为多数类样本集合，为少数类样本集合，则有T=Tmaj+Tmin（8）过采样所需要的生成的样本量T=TmajTmin（9）Tminxixj x接着，采用线性插值合成部分少数类样本，对于任意的中的一个样本点，运用欧

20、氏距离度量，随机选取 k 近邻中的一个近邻样本，通过线性插值合成样本,x=xi+(xjxi)（10）0,1，TsynTnew_min式中，通过线性插值合成的样本量集合记为。通过合成少数类样本后得到新的少数类样本集合记为。其中，Tsyn=T2（11）Tnew_min=Tmin+Tsyn（12）c.生成新样本。结合生成对抗网络模型和梯度惩罚模型优良性质，针对过采样问题提出了改进后的损失函数为L1=minGmaxDExPrlog(D(x)+ExPglog(1D(x)+E xP x(xD(x)21)2（13）P x x=xr+(1)xg,(0,1)式中，表示真实数据分布和生成数据分布采样的线性

21、均匀采样分布，即。通过步骤(a)的去除噪声和步骤(b)合成部分少数类样本之后，采用梯度惩罚生成对抗网络算法生成新样本。Tnew_min2首先，把合成的新的少数类样本记为新少数类样本，即。通过计算得到该样本的均值和方差，分别记为和。对于噪声样本 z，假设满足zPzN(,2)（14）噪声数据通过映射将数据转化为生成样本x=G(z)（15）接着，将噪声样本和新少数类样本分别用生成器网络和判别器网络进行迭代，计算各个网络及梯度惩罚的损失，由式(12)得到判别器损失LD、生成器损失 LG和梯度惩罚损失 LGP，分别为LD=ExPrlogD(x)ExPglog(1D(x)（16）LG=ExPg

22、log(1D(x)（17）LGP=E xP x(xD(x)21)2（18）238上海理工大学学报2023年第45卷xxD(x)2式中：为训练样本；为求该样本的梯度的二范数。Tgen再设置判别器网络和生成器网络的收敛阈值，在达到阈值之后停止迭代，实验设置循环迭代阈值为 3000 次。最后，通过网络收敛时生成器生成的样本即为新样本，通过梯度惩罚的生成对抗网络模型生成的样本集合记为。根据上述对于 OGPG 算法步骤的描述，给出算法的合成样本示意图，见图 3。少数类样本多数类样本部分合成样本新生成样本图 3 合成样本示意图Fig.3 Schematic diagram of synthetic sam

23、ple 3 实验结果及分析 3.1 数据集为了验证 OGPG 算法的有效性，实验从UCI 机器学习库中挑选了 14 组二类不平衡数据集，其样本量、特征数以及不平衡率（imbalancedratio，IR）都不相同。表 1 是所选取的数据集的详细信息：3.2 评价指标在处理不平衡数据的分类问题的时候，分类器的超平面会向少数类样本偏移，因此精确率不适合作为评价指标。实验采用Fm和Gm作为评价指标23。其中Fm表示单一类别精确率和召回率的均衡指标，Gm表示召回两个类别数据的综合表现指标。Fm和 Gm的计算式如下：P=TPTP+FP,R=TPTP+FN（19）S=TNTN+FP（2

24、0）Fm=2PRP+R（21）Gm=RS（22）式中：TP 表示将正例样本预测为正例；FP 表示将正例样本预测为反例；FN 表示将反例样本预测为正例；TN 表示将反例样本预测为反例；P 为查准率；R 为召回率；S 为特异性。3.3 实验分析为了验证 OGPG 算法的优越性，首先通过前8 组数据集对比了 SMOTE,ADASYN，B-SMOTE，CBSO24传统过采样算法。其次通过后 4 组数据集对比了采用 GAN 的 LGOS 算法。此外，在对比传统算法中，采用 k 近邻分类器和决策树分类器随机选取 70%的数据作为测试集，剩余 30%的数据作为测试集，每个数据集取 5 次实验结果的平均值作为

25、报告结果。在对比 LGOS 算法中采用决策树分类器选取 80%的数据作为测试集，剩余 20%的数据作为测试集，每个数据集取 10 次实验结果的平均值作为报告结果。粗体表示的是实验的最优值。通过上述实验验证本算法的有效性和泛化能力。所有实验都是在 2.80GHzCPU、16.0GB 内存的电脑上运行的，软件环境是 Python3.7。从表 2 和表 3 的结果可以看出，无论是 k 近邻分类器还是决策树分类器，OGPG 算法在 Fm，Gm上均获得了明显提升。在 Fm指标下，8 个数据集中都表现较好；在 Gm指标下，8 个数据集中7 个表现相对较好。通过对表 2、表 3 对各指标的表 1 实验数据集

26、信息Tab.1 Details of datasets数据集样本数特征数多数类少数类IRwisconsin68394442391.8577yeast114841010554292.4592pageblocks054721049135598.7889abalone9_1873186894216.4040cargood1728616596924.043winequality_red415991115465329.169abalone3vs1150284871532.466ecoli0137vs262817274739.143phoneme54045381815862.41satimage44353

27、639564798.26pen1099216993710559.42wine64971156178806.38letter200001618445155511.86avila1043010933510958.53第3期陶家亮，等：基于梯度惩罚生成对抗网络的过采样算法239分析，可以发现算法在 Gm指标下 abalone3vs11 数据集上表现相对没有优势。该数据集在 CBSO 算法上表现相对较好，之所以出现该现象，是因为数据集中存在边界较难学习的样本，OGPG 算法较难学习到该样本的有效信息，导致评价指标相对较低。但是从结果上看仍然非常接近最优指标，充分说明了 OGPG 算法的有效性。通过上述

28、对表 2 和表 3 的结果分析，验证了 OGPG 算法的有效性。为了验证 OGPG 算法的稳定性，实验绘制了数据集在Fm指标和Gm指标下的箱线图，分别见图4和图 5。箱线图包括一个矩形箱体和上下两条线，表 2 基于k近邻和决策树分类器的Fm指标Tab.2 Fm based on k-nearest neighbor and decision tree classification数据集分类器SMOTEADASYNB-SMOTECBSOOGPGyeast1k近邻0.99380.99690.99370.99650.997 2决策树0.998 90.99750.99840.99820.9975eco

29、li0137vs26k近邻0.98870.994 20.98850.98850.994 2决策树0.98880.98830.98850.99420.998 8abalone9_18k近邻0.98910.97420.98720.98850.995 3决策树0.96320.96290.978 20.97370.9781abalone3vs11k近邻0.93950.93930.94830.96161决策树0.92520.94990.94640.97321pageblock0k近邻0.98730.98330.988 70.98190.9873决策树0.98620.98640.98790.98580.9

30、88 8winequality_red4k近邻0.98960.98810.97660.98690.991 5决策树0.98480.97480.98270.97560.986 4car_goodk近邻0.89510.89210.90250.88590.902 7决策树0.91330.91710.89260.90380.922 1wisconsink近邻0.96020.96350.95240.95650.973 1决策树0.94880.95190.93250.96040.976 4表 3 基于k近邻和决策树分类器的Gm指标Tab.3 Gm based on k-nearest neighbor a

31、nd decision tree classification数据集分类器SMOTEADASYNB-SMOTECBSOOGPGyeast1k近邻0.99360.98670.99360.99210.996 8决策树0.99360.99670.99360.99680.997 5ecoli0137vs26k近邻0.98690.99360.98780.98720.993 7决策树0.98690.99370.98780.98720.998 7abalone9_18k近邻0.98620.98790.98320.98720.993 4决策树0.98650.990 40.98320.98720.9771aba

32、lone3vs11k近邻0.93550.92470.94380.962 30.9499决策树0.93520.92680.94380.973 70.9547pageblock0k近邻0.98740.98330.988 90.98160.9871决策树0.98630.98650.98810.98550.989 4winequality_red4k近邻0.98890.98770.97810.98720.991 3决策树0.97860.97310.98380.97570.986 1car_goodk近邻0.87870.87810.89080.87060.897 7决策树0.91580.91920.89

33、580.90490.924 9wisconsink近邻0.95790.96220.95680.95440.974 5决策树0.94690.95290.93710.95920.977 5240上海理工大学学报2023年第45卷箱体中间的线为中位线，上限和下限分别为上四分位数和下四分位数，箱子的宽度显示数据的波动程度，箱体的上下方各有一条线是数据的最大值和最小值，超出最大最小值线的数据为异常数据。从图 4 和图 5 中可以看出，OGPG算法的数据波动性相对较小，数据的中值、上下四分位数与其他算法相比要更加稳定，且数值也优于其他算法，这说明了 OGPG 算法稳定性较好。SMOTEADASYMB-SM

34、OTECBSOOGPG0.9450.9500.9550.9600.9650.9700.9750.9800.985图 4 基于Fm指标的箱线图Fig.4 Boxplot based on FmSMOTEADASYMB-SMOTECBSOOGPG0.9450.9500.9550.9600.9650.9700.9750.9800.985图 5 基于Gm指标的箱线图Fig.5 Boxplot based on Gm为了验证 OGPG 算法在统计学上是否具有显著性，本文采用 Wilcoxon 符号秩检验来评估所提算法和其他对比算法之间的显著性差异。表 4表 7是 Wilcoxon 符号秩检验的结果，其中

35、 R+表示所提算法的秩和，R表示对比算法的秩和，置信度是95%，p 为 0.05。在 k 近邻分类器下，可以看到，都是拒绝原假设；在决策树分类器下，在对比算法 ADASYN、CBSO 在 Gm指标下是接受原假设，其余都是拒绝原假设，说明 OGPG 算法相对于其他算法具有较显著的差异性。结合表 2、表 3 在各指标的综合表现情况，说明 OGPG 算法相对于传统算法有显著的有效性。为了全面验证算法的有效性，实验还对比了文献 18 的 LGOS 算法，即采用 GAN 的过采样算法，如表 8 所示。从表 8 的结果可以看出，在决策树分类器下，无论是 Fm还是 Gm指标，该算法均有较为明显的提升。除此之

36、外，在前 8 组数据集中，样本量相对较少，在对比传统算法中有显著提升；在后 6 组数据集中，数据样本量相对较多，在对比算法中同样有着较为明显的提升，说表 4 基于Fm及k近邻分类器的 Wilcoxon 检验表Tab.4 Wilcoxon test on k-nearest neighbor classifier of Fm对比方法R+RpOGPGvsSMOTE2800.014OGPGvsADASYN2800.014OGPGvsB-SMOTE3420.023OGPGvsCBSO3600.008表 5 基于Gm及k近邻分类器的 Wilcoxon 检验表Tab.5 Wilcoxon test on

37、k-nearest neighbor classifier of Gm对比方法R+RpOGPGvsSMOTE3510.015OGPGvsADASYN3640.008OGPGvsB-SMOTE3510.015OGPGvsCBSO3060.109表 6 基于Fm及决策树分类器的 Wilcoxon 检验表Tab.6 Wilcoxon test on decision tree classifier of Fm对比方法R+RpOGPGvsSMOTE3510.016OGPGvsADASYN2800.017OGPGvsB-SMOTE3330.047OGPGvsCBSO3510.016表 7 基于Gm及决策

38、树分类器的 Wilcoxon 检验表Tab.7 Wilcoxon test on decision tree classifier of Gm对比方法R+RpOGPGvsSMOTE3150.041OGPGvsADASYN3060.053OGPGvsB-SMOTE3240.029OGPGvsCBSO26100.153第3期陶家亮，等：基于梯度惩罚生成对抗网络的过采样算法241明了算法的有效性。OGPG 算法和 LGOS 算法之间的显著性差异见表 9。可以看出，在置信度为 95%的情况下，即 p不大于 0.05 的情况下，均拒绝原假设。说明 OGPG算法相对于 LGOS 算法具有显著的差异性。通过

39、该部分实验也说明了 OGPG 算法具有显著的有效性。表 9 Wilcoxon 符号秩检验表Tab.9 The table of Wilcoxon signed rank test对比方法评价指标R+RpOGPGvsLGOSFm2100.028OGPGvsLGOSGm2100.026 4 结束语针对不平衡数据分类问题，传统的过采样算法没有充分考虑原始数据的概率密度分布，从而导致生成的样本不具有较强的安全性。通过引入生成对抗网络以及梯度惩罚模型，提出了一种基于梯度惩罚生成对抗网络的过采样算法。在该算法中，首先引入生成对抗网络，通过生成器网络有效地学习原始数据的概率密度；其次，由于生成对抗网络易出现

40、过拟合或梯度消失等现象，因此采用梯度惩罚来对判别器网络输入项的梯度二范数进行约束，从而有效地降低了该情况的发生，使得生成器既能有效学习数据的概率密度分布又能合理地生成新样本；最后，在 14 个公共数据集上采用两个分类器与多种算法进行了对比实验，并利用 Wilcoxon 符号秩检验验证了所提算法的有效性和通用性。当然，该算法也有一定的缺点，在时间复杂度上，因为算法引入了深度学习网络，所以时间复杂度上较高，这也是后续将要努力的方向。参考文献：FIORE U,DE SANTIS A,PERLA F,et al.Usinggenerativeadversarialnetworksforimprovin

41、gclassificationeffectivenessincreditcardfrauddetectionJ.InformationSciences,2019,479:448455.1FOTOUHIS,ASADIS,KATTANMW.Acomprehensivedatalevelanalysisforcancerdiagnosisonimbalanced dataJ.Journal of Biomedical Informatics,2019,90:103089.2MENA L J,GONZALEZ J A.Machine learning forimbalanceddatasets:app

42、licationinmedicaldiagnosticC/ProceedingsoftheNineteenthInternationalFloridaArtificialIntelligenceResearchSocietyConference.Melbourne Beach:AAAI Press,2006:574579.3武文娟,李勇.Emfacenet:一种轻量级人脸识别的卷积神经网络 J/OL.小型微型计算机系统,2021:16.(2021-12-17).http:/ J.小型微型计算机系统,2021,42(10):21962202.5ZHANGHL,LIUGS,PANL,etal.GE

43、VregressionwithconvexlossappliedtoimbalancedbinaryclassificationC/2016IEEEFirstInternationalConferenceonDataScienceinCyberspace(DSC).Changsha:IEEE,2016:532537.6JINGXY,ZHANGXY,ZHUXK,etal.MultisetfeaturelearningforhighlyimbalanceddataclassificationJ.IEEETransactionsonPatternAnalysisandMachineIntellige

44、nce,2021,43(1):139156.7ZHENGZY,CAIYP,LIY.Oversamplingmethodforimbalanced classificationJ.Computing and Informatics,2015,34(5):10171037.8CASTRO C L,BRAGA A P.Novel cost-sensitiveapproachtoimprovethemultilayerperceptronperformanceon imbalanced dataJ.IEEE Transactions on NeuralNetworksandLearningSystem

45、s,2013,24(6):888899.9WANGC,DENGCY,YUZL,etal.Adaptiveensembleof classifiers with regularization for imbalanced data10表 8 基于决策树分类器的对比评价Tab.8 Evaluation based on decision tree classifier数据集评价指标LGOSOGPGphonemeFm0.75860.938 4Gm0.84860.945 9satimageFm0.94610.971 9Gm0.97780.983 3penFm0.96810.998 9Gm0.99020

46、.999 2wineFm0.59660.993 6Gm0.78970.997 8letterFm0.89360.985 4Gm0.95010.983 5avilaFm0.95110.999 3Gm0.84860.999 7242上海理工大学学报2023年第45卷classificationJ.InformationFusion,2021,69:81102.周传华,朱俊杰,徐文倩,等.基于聚类欠采样的集成分类算法 J.计算机与现代化,2021(11):7276.11陈刚,郭晓梅.基于时间序列模型的非平衡数据的过采样算法 J.信息与控制,2021,50(5):522530.12CHAWLA N V

47、,BOWYER K W,HALL L O,et al.SMOTE:synthetic minority over-sampling techniqueJ.Journal of Artificial Intelligence Research,2002,16:321357.13HEHB,BAIY,GARCIAEA,etal.ADASYN:AdaptivesyntheticsamplingapproachforimbalancedlearningC/2008IEEEInternationalJointConferenceonNeuralNetworks(IEEEWorldCongressonCom

48、putationalIntelligence).HongKong,China:IEEE,2008:13221328.14HANH,WANGWY,MAOBH.Borderline-SMOTE:anew over-sampling method in imbalanced data setslearningC/InternationalConferenceonIntelligentComputing.Berlin,Heidelberg:Springer,2005:878887.15GOODFELLOWIJ,POUGET-ABADIEJ,MIRZAM,etal.Generativeadversari

49、alnetsC/Proceedingsofthe27thInternationalConferenceonNeuralInformationProcessingSystems.Montreal:MITPress,2014:26722680.16DOUZASG,BACAOF.GeometricSMOTEageometricallyenhanceddrop-inreplacementforSMOTEJ.InformationSciences,2019,501:118135.17何新林,戚宗锋,李建勋.基于隐变量后验生成对抗网络的不平衡学习 J.上海交通大学学报,2021,55(5):557565.

50、18LUO X,CHANG X H,BAN X J.Regression andclassificationusingextremelearningmachinebasedonL1-norm and L2-normJ.Neurocomputing,2016,174:179186.19CUZICKJ.AWilcoxontypetestfortrendJ.StatisticsinMedicine,1985,4(1):8790.20GULRAJANI I,AHMED F,ARJOVSKY M,et al.Improved training of Wasserstein GANsC/Proceedin

展开阅读全文