ImageVerifierCode 换一换
格式:PDF , 页数:10 ,大小:921.86KB ,
资源ID:832196      下载积分:10 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/832196.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     索取发票    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(Borderline-mixup不平衡数据集分类方法.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

Borderline-mixup不平衡数据集分类方法.pdf

1、Borderline-mixup 不平衡数据集分类方法吴振煊1,郭躬德1,王晖21(福建师范大学计算机与网络空间安全学院,福州350117)2(贝尔法斯特女王大学电子电气工程和计算机科学学院,贝尔法斯特BT95BN)通信作者:郭躬德,E-mail:;王晖,E-mail:h.wangqub.ac.uk摘要:不平衡数据集问题从 20 年前就已经引起人们的重视,提出的相关解决方法层出不穷.Mixup 是这几年比较流行的数据合成方法,其相关变体比比皆是,但是针对不平衡数据集提出的 Mixup 变体寥寥无几.本文针对不平衡数据集分类问题,提出了 Mixup 的变体Borderline-mixup,其使用

2、支持向量机选择边界样本,增加边界样本在采样器中被采样的概率,构建两个边界采样器,替代了原有的随机采样器.在 14 个 UCI 数据集以及 CIFAR10 长尾数据集上的实验结果表明,Borderline-mixup 相比于 Mixup 在 UCI 数据集中都有提升,最高能达到 49.3%的提升,在CIFAR10 长尾数据集中,也能达到 3%3.6%左右的提升.显然,我们提出的 Mixup 变体在不平衡数据集分类中是有效的.关键词:Mixup;支持向量机;不平衡数据集;边界样本;分类引用格式:吴振煊,郭躬德,王晖.Borderline-mixup 不平衡数据集分类方法.计算机系统应用,2023,

3、32(11):7382.http:/www.c-s- Imbalanced Data Sets Classification MethodWUZhen-Xuan1,GUOGong-De1,WANGHui21(CollegeofComputerandCyberSecurity,FujianNormalUniversity,Fuzhou350117,China)2(SchoolofElectronics,ElectricalEngineeringandComputerScience,QueensUniversityBelfast,BelfastBT95BN,UK)Abstract:Theprobl

4、emofimbalanceddatasetshasattractedpeoplesattentionsincetwodecadesago,andvarioussolutionshavebeenproposed.Mixupisapopulardatasynthesismethodinrecentyears,withmanyvariantsextended.However,therearenotmanyMixupvariantsproposedforimbalanceddatasets.ThisstudyproposesaMixupvariant,namelyBorderline-mixup,to

5、addresstheclassificationproblemofimbalanceddatasets,whichusesasupportvectormachine(SVM)toselectboundarysamplesandincreasestheprobabilitythattheboundarysampleissampledinthesampler.Twoboundarysamplersareconstructedtoreplacetheoriginalrandomsampler.Extensiveexperimentshavebeenconductedon14UCIdatasetsan

6、dCIFAR10long-taildatasets.TheresultsshowthatBorderline-mixuphasoutperformedMixupconsistentlyonUCIdatasetsbyupto49.3%andonCIFAR10long-taildatasetsbyabout3%3.6%.Therefore,theproposedBorderline-mixupiseffectiveintheclassificationofimbalanceddatasets.Key words:Mixup;supportvectormachine(SVM);imbalancedd

7、atasets;boundarysamples;classification近年来,神经网络的发展十分迅速,在不同领域的应用都取得了优异的表现.众所周知,数据对于神经网络是至关重要的.然而和许多实验中所使用的数据集不同,真实世界的数据通常是呈不平衡分布的,尤其在一些异常检测的应用中,比如医疗诊断、欺诈检测、入侵检测等,这是因为异常事件相对于正常事件而言计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(11):7382doi:10.15888/ki.csa.009297http:/www.c-s

8、-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:国家自然科学基金(61976053,62171131);福建省自然科学基金(2022J01398)收稿时间:2023-04-30;修改时间:2023-05-29;采用时间:2023-06-06;csa 在线出版时间:2023-09-15CNKI 网络首发时间:2023-09-19SpecialIssue专论综述73通常是罕见的.类别不平衡问题早在 20 年前就已经得到人们的广泛关注1,2,在这种情况下,数据集的不平衡分布会给大多数假设数据是相对平衡分布的机器学习算法带来严重的困难3.比如在反向传播的神经网络中,多数

9、的类别样本往往会通过主导梯度向量来主导神经网络的训练过程,即将类与类之间的边界由多数类推向少数类,以减少分类误差.这会导致神经网络在少数的类别样本上表现不佳.针对不平衡数据集分类,已经提出了许多相关的解决方法.这些方法可以简单地分为 3 大类,第 1 类是重加权,其中包括代价敏感学习和分类器阈值调整,目的都是为了在算法层面上给予少数类更大的权重.代价敏感学习考虑了不同误分类情况的不同代价4,设置错误分类少数样本的代价大于错误分类多数样本的代价.通过在训练期间调整不同类别的损失值来达到对类别进行重新平衡的目的.相关的方法有 Focalloss5、Class-balancedloss6等.分类器阈

10、值调整是从修正分类结果的角度出发,通过调整阈值,使得模型更关注少数类.第 2 类是集成学习,集成学习利用多个分类器,通过各种投票机制获得最终结果,从而提高单个分类器的准确性7,已经成功应用在不平衡数据集中8,并成为了类不平衡问题的一种流行的解决方法9.第 3 类是重采样,又可以细分为对少数类进行过采样、对多数类进行欠采样或者是两种方法结合使用,目的是为了从数据层面上使不平衡数据集变得较为平衡.其中,随机采样是最简单的一种采样方法,但是,对少数类进行随机过采样,容易造成少数类样本的过拟合;对多数类进行随机欠采样,又会损失多数类样本的相关特征信息.于是,有人提出基于数据生成的采样,即对数据进行合成

11、来增加相应类别的样本数量,从而提升神经网络在不平衡数据集上的性能.SMOTE10就是一种合成少数样本的过采样技术,通过随机选择少数样本附近的邻近点,在两者之间的连线上随机选择一点作为新合成的少数类样本.Mixup11也是一种基于数据生成的过采样技术,随机选择数据集中的两个样本,将样本和样本标签分别进行混合.有研究表明12,Mixup 在不平衡数据集上能够有效地提升网络的性能.虽然 Mixup 从发表至今,提出的变体层出不穷,但其许多变体都是对平衡的数据集进行研究实验,在不平衡数据集上的研究比较少,其中较为熟知的有 Remix13、Balanced-mixup14、Label-occurr-en

12、ce-balancedmixup15.本文提出一种新的不平衡数据集分类方法:边界混合(Borderline-mixup),它由两个边界采样器组合而成.在边界采样器中,我们不再盲目地选择样本进行混合,而是找到位于边界附近的样本,增加它们被采样的概率.因为边界样本最容易被错误分类,将混合的重点放在边界区域上可能会比放在整个少数类样本区域上有更好的表现.我们使用 4 层的多层感知机对 UCI 数据集中的 10 个二分类以及 4 个多分类的不平衡数据集进行实验,结果表明 Borderline-mixup 在提升模型性能方面是有效的.除此之外,我们还在基准的不平衡数据集 CIFAR10-LT 上进行了实

13、验,实验结果表明,我们提出的 Borderline-mixup 相较于 Mixup 的性能最高能提升 3.6%.1相关工作 1.1 重采样重采样一般分为过采样和欠采样,最简单的一种采样方法就是随机采样.对少数类进行随机过采样,虽然扩大了数据集,但是因为对少数类样本进行了多次复制,容易造成过拟合.而对多数类进行随机欠采样,会丢弃一些样本,即有可能损失部分有用信息.针对随机过采样的问题,有人提出,过采样的时候不要只是简单地复制样本,而是通过一些方法来生成新样本,从而降低过拟合的风险,比如通过 SMOTE10方法,对少数类进行合成新样本,从而达到过采样的目的.至于随机欠采样,有人提出了依据信息的欠采

14、样,主要有两种方法:EasyEnsemble 和 BalanceCascade16,目的是克服随机欠采样中的信息丢失.1.2 重加权重加权的主要思想就是根据类别样本的数量调整不同类别的权重,以重新定义每个类别中样本的重要性,从而达到对类别进行重新平衡的目的.这里的权重可以是误分类的代价,也可以是分类器的阈值.调整误分类的代价的方法又称为代价敏感学习,许多研究都提出了各种重新加权的方法来处理数据集不平衡的问题,包括 Focalloss5、Class-balancedloss6等.调整分类器阈值也是一种重加权的方法.有研究表明17,18,在数据集不平衡的情况下,默认的分类阈值的实验结果永远不是最优

15、的.最优阈值通常是通过最大化某个评估指标(比如 g-mean18、F1-score19等)或者是依据正类的先验概率来确定的.计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第11期74专论综述SpecialIssue 1.3 集成学习集成学习是一种利用多种机器学习算法,根据对数据提取的特征得出预测结果,并用投票机制获得最终结果的方法.有效地利用了每个算法的信息,从而使得最终得到的模型具有更好的性能.集成方法已经被广泛运用在数据集不平衡的问题中,许多集成模型2022被提出用于解决类不平衡问题.1.4 采样方法常见的数据采样策略可以用式(1)来概括:pj=nqjKk=1nq

16、k(1)D=(xj,yj),j=1,NKnkkN=Kk=1nkpjjqq=0q=1q=12在数据集中,一共有个类,表示第 类里包含的样本数,样本总数.表示第 类数据被采样的概率.常见的取值是 0,1,1/2.如果,则称为基于类别的采样;如果则是基于实例的采样,即随机采样;被称为平方根采样14.1.5 Mixup 及其相关变体1.5.1MixupD(xi,yi)(xj,yj)(x,y)yiyjMixup 是由 Zhang 等人11提出的一种正则化技术,也是一种数据增强方法.是为了提供神经网络的泛化能力而提出的.其思想是随机选择数据集中的两个样本对,通过式(2)得到它们的样本及标签的凸组合,其中

17、和是对应标签的独热编码,随后在样本的凸组合上训练网络.x=xi+(1)xj y=yi+(1)yj(2)Beta(,),(0,)0,1其中,得到.1.5.2RemixxyMixup 对样本和标签使用的是相同的混合因子来混合特征空间和标签空间中的样本,而 Remix13给样本和标签提供不同的混合因子和,以便于为少数类分配更高的权重.x=xxi+(1x)xj y=yyi+(1y)yj(3)其中:y=0,ni/nj and x 1,ni/nj 1/and 1x x,otherwise(4)y=3=0.5这里的 和 是作者定义的两个超参数,便于更加合理地控制的值.并且,作者通过实验表明,设置和得到的实验

18、结果最优.在后续的实验部分,我们也沿用这样的设置,用于对比实验.1.5.3Balanced-mixupSISCxIxCSC不同于 Mixup 使用两个基于实例的采样器来随机选择两个样本进行混合,Balanced-mixup14使用一个基于实例的采样器和一个基于类别的采样器,采样得到的样本分别表示为和.基于类别的采样器能够对样本进行平衡采样,使得采样得到的数据分布是平衡的,这样混合得到的数据分布会更加平衡.x=xI+(1)xC y=yI+(1)yC(5)1.5.4Label-occurrence-balancedmixupSC1SC2XC1XC2和 Balanced-mixup14类似,Labe

19、l-occurrence-balancedmixup15使用了两个基于类别的采样器和来代替 Mixup 原有的两个基于实例的采样器,得到的样本分别表示为和.这样混合得到的数据是接近于完全平衡的.x=xC1+(1)xC2 y=yC1+(1)yC2(6)为了方便起见,后面我们用 Label-mixup 指代 Label-occurrence-balancedmixup.1.6 支持向量机支持向量机(supportvectormachine)是一种常见的二分类模型,通过扩展可以实现多分类的任务.它的目标是找到特征空间上的一个超平面,不仅要使得两类数据分开,而且各个类别的样本点中离这个超平面最近的点,

20、即支持向量,到超平面的距离要最大化.通过确定超平面来实现分类.D=(xi,yi),i=1,N yi1,1yi(w(xi)+bi)1i,i 0,i12 w2+Ciiw,bwTx+b=0 xiiC以二分类为例,数据集,.SVM 的目标函数可以表示为在满足的条件下,最小化.其中,是超平面的参数,是一个将样本从低维到高维的映射,是松弛变量,是惩罚参数,用于控制对误分类点的容忍程度.1.7 边界混合方法现有的边界混合方法大多都是将选取的边界样本和 SMOTE 方法结合使用,文献 23 通过计算少数类中每个样本的 k 个最近邻样本中多数类样本的个数,2023年第32卷第11期http:/www.c-s-计

21、 算 机 系 统 应 用SpecialIssue专论综述75来确定该样本是否属于边界样本,对取得的少数类的边界样本采取 SMOTE 方法进行过采样.文献 24,25分别定义了区分边界样本与非边界样本的标准,对满足标准的少数类样本,使用 SMOTE 方法进行过采样,对非边界中的多数类样本,则进行欠采样,从而达到重采样的目的.这些研究确定边界样本的方法都是通过K-means 算法选取样本的 k 个最近邻样本,研究这些近邻样本和被选取样本之间的关系,从而确定被选取样本是否为边界样本.并且只对少数类的边界样本进行过采样,对多数类的边界样本则不进行处理.我们提出的方法使用 SVM 确定边界样本,即支持向

22、量,相比于自定义边界样本的标准,使用支持向量作为边界样本更加合理.且对多数类和少数类的边界样本,我们都增加了它们的采样概率,并且我们设置少数类的边界样本的采样概率高于多数类的边界样本,这样不仅区分了边界样本和非边界样本、少数类和多数类的重要程度,也对多数类和少数类的边界样本一视同仁,相对于它们的非边界样本,均增加了相同倍数的采样概率.重采样之后,我们使用 Mixup 方法进行实验,该方法和 SMOTE 方法的根本区别在于,SMOTE是在同一类别里进行数据合成,即假设邻近样本共享相同的类,而 Mixup 是随机组合,不考虑类别,即合成的数据可能属于同一类别,也可能属于不同类别,模拟了不同类别之间

23、的邻近关系,这给模型带来了更多的正则化好处.2Borderline-mixupMixup11思想是随机选择两个数据对,得到这两个数据对的样本和标签对应凸组合,来达到数据增强的目的.这里可以理解为 Mixup11是利用两个随机采样器来选择数据.类似的,Balanced-mixup14是采用一个类平衡采样器和一个随机采样器来选择数据,而Label-mixup15则是选用两个类平衡采样器来进行实验.不管是随机采样器还是类平衡采样器,其对于样本的选择都是一视同仁的,即每个类的样本与样本之间,都有着相同的被采样的概率.而我们认为,在分类任务中,不应该对特征空间中的每个样本点都给予相等的重视.那些能够帮助

24、我们区分其他类别的样本点理应得到更多的重视.2.1 边界采样在数据集不平衡问题中,少数类样本可以分为两种:本身数量并不少,只是相对于多数类其占的比例较少,即相对稀缺;以及本身数量就是很少,即绝对稀缺.且有研究表明26,相对稀缺不一定会引起分类器的性能下降.但是对于绝对稀缺的这种情况,则需要研究人员尽可能地挖掘出少数类样本的有效信息.对于少数类绝对稀缺的情况,可以从类别之间的可分性出发,如果类别之间的边界样本重叠较少,即可分性较强,那么类别不平衡并不会对分类器性能造成太大的影响.从这个角度出发,我们认为边界样本的重要性是要高于非边界样本的,即边界样本理应得到更多的重视.在选择边界样本的问题上,我

25、们受到了支持向量机的启发,使用其选择边界样本,即将超平面附近的支持向量作为边界样本,赋予它们更高的采样概率,用于后续实验.研究表明,特征空间中的最优分类超平面的权重可以表示为支持向量的线性组合27,这就说明,最优超平面是独立于除支持向量之外的其他样本.文献 26表明,支持向量机对类别不平衡问题不敏感,因为它们的分类基于少量的支持向量,并且大量的训练数据可以被认为是冗余的,因此,他们认为 SVM 是处理不平衡数据集的好选择.这也在一定程度上证明了我们在不平衡分类中选择支持向量作为边界样本的合理性.于是,我们设计了一个边界采样器,具体构建过程如下:(1)使用 SVM 对不平衡数据集进行分类,根据每

26、个类别的样本数量分别设置不同的惩罚参数,其与类别的样本数量成反比.(2)得到 SVM 中每个类的支持向量,也就是边界样本,将其保存下来,用于后续操作.(3)根据每个类的支持向量数、样本数对其进行采样概率的设计.赋予支持向量更高的权重,使得它们被采样的概率更大.构建所得到的边界采样器可以用于后续的混合操作.2.2 采样概率设计我们构建的边界采样器,是在类平衡采样器的基础上进行改进,赋予我们找到的边界样本更高的采样概率.采样概率的设计,除了类平衡这个条件之外,我们还需要确定边界样本和非边界样本的比例,比例确定好了之后,就能够得出我们的采样概率.我们在实验中尝试了几个不同的比例,发现边界样本和非边界

27、样本的采样概率比为 3:1 的时候,实验所得的结果是最好的.在文献 5 中,作者在设置 balanced计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第11期76专论综述SpecialIssuecrossentropy 的正负样本的权重时,也得出了和我们相同的结论,只不过这篇文章讨论的是正负样本的权重比例,而我们设置的是边界样本和非边界样本的采样概率比.Dn1z1n2z2p先以二分类为例,假设是一个二类不平衡数据集,多数类样本数为,支持向量数为,少数类样本数为,支持向量数为.则我们设置的边界采样器中,非支持向量、多数类的支持向量和少数类的支持向量被采样的概率 为:p=

28、12(2z1+n1),多数类的非支持向量12(2z2+n2),少数类的非支持向量32(2z1+n1),多数类的支持向量32(2z2+n2),少数类的支持向量(7)可以看到,我们设置的某一类的支持向量的采样概率是同类中非支持向量的 3 倍,并且重新采样后多数类和少数类能够达到近似平衡的样本比.kDni,i=1,2,kizi,i=1,2,kip扩展到 分类的情况,还是令数据集为,为第 类的样本数,为第 类的支持向量数,则各个类的样本的被采样概率 为:p=1k12zi+ni,第i类的非支持向量3k12zi+ni,第i类的支持向量(8)2.3 边界混合采样SB1SB2我们对 Mixup 方法进行了改进

29、,不采用两个随机采样器对数据集进行采样构成凸组合,而是使用两个边界采样器和,得到混合样本为:x=xB1+(1)xB2 y=yB1+(1)yB2(9)Beta(,),(0,)0,1其中,得到.我们把我们提出的方法称为 Borderline-mixup.3实验我们在 UCI 机器学习数据库以及 CIFAR10-LT 的长尾数据集上评估了我们提出的方法.其中我们选择的 14 个 UCI 数据集是本身就具有不平衡性质的数据集,其不平衡的程度各不相同.CIFAR10-LT是根据文献 6,28 构建的 CIFAR10的长尾版本.即不同类别的样本数量呈指数衰减,在不平衡分类中经常作为基准的数据集用于比较.3

30、.1 数据集3.1.1UCI 机器学习数据库在二分类和多分类实验中,我们分别使用了来自UCI 机器学习知识库的 10 个二分类不平衡数据集和4 个多分类不平衡数据集,如表 1 和表 2 所示,二分类任务中包括 Spect29、Blood30、Yeast31、Abalone32、Ecoil33、Ionosphere34、Wilt35、BalanceScale36、BankMarketing37、Fertility38数据集;多分类任务中使用了 CarEvaluation39、Avila40、BalanceScale36和 Chess41数据集我们对原有数据集进行分层采样,得到训练集、验证集、测试

31、集,分别占原有数据集的60%、20%、20%.其中不平衡比例是在训练集上将多数类样本数除以少数类样本数得到的.表 1二分类实验中使用的 UCI 数据集数据集特征数样本数不平衡比例Spect222673.848Blood47483.226Yeast814845.1Abalone841772.20Ecoil833615.75Ionosphere343511.79Wilt6488958.16BalanceSacle462511.90BankMarketing17452118.15Fertility91007.429表 2多分类实验中使用的 UCI 数据集数据集特征数样本数类别数最大不平衡比例CarE

32、valuation61728418.615Avila101043012857.2BalanceScale462535.878Chess6280561858.372在二分类实验中,对于多类数据集,我们采取选用其中一类为正类,其余类为负类的方法进行实验.表 1展示了用于二分类实验的 10 个数据集的相关信息,表 2 展示了用于多分类实验的 4 个数据集的相关信息.3.1.2CIFAR10-LTn=ntuttnttu (0,1)uCIFAR10-LT 是由原始 CIFAR10 数据集,在确定不平衡比例之后,根据指数函数,减少每个类的训练样本数量来创建的,其中测试集不做改变.这里,为类索引,为原始数据

33、集中 类训练样本的数量,6,28,在不平衡比例和类别数已知的情况下,可以算出 的值.2023年第32卷第11期http:/www.c-s-计 算 机 系 统 应 用SpecialIssue专论综述77=100,200不平衡比例 被定义为数量最多的类别样本数除以数量最小的类别样本数,取值范围一般是在 10 到200 之间.在我们的实验中,选取,数据集的相关信息如表 3 所示.表 3实验中使用的 CIFAR10-LT 数据集数据集=200=100训练样本数1120312406最大类别样本数50005000最小类别样本数2550 3.2 实验设置3.2.1UCI 数据集分类实验设置=1 epoch对

34、于 UCI 数据集分类任务,我们选择四层感知机进行实验,隐藏层的节点设置为输入层和输出层节点之和的 2/3,设置,大小为 300,batch-size 为128,取 15 次实验的平均值为结果.3.2.2CIFAR10 长尾数据集图像分类实验设置2104epochepochepochepoch=1对 CIFAR10 长尾数据集的实验,我们选择 ResNet32作为主干网络,采用随机梯度下降方法,其中动量为 0.9,权重衰减为,大小为 200,batch-size 为128,学习率初始化为 0.1,在 160 个和 180 个时除以 10.我们对前 5 个采取热身操作42.设置,取 5 次实验的

35、平均值为结果.3.3 评估指标recallF1-score g-mean对于不平衡数据集分类,准确率不是一个很合理的评判标准,所以在 UCI 二分类实验中,我们选取,作为评估标准进行比较.TPFNFPTNrecall F1-score在二分类的混淆矩阵中,表示真阳性,表示假阴性,表示假阳性,表示真阴性.实验中,设置少数类为正类,多数类为负类.评估指标,g-mean分别表示如下.recall表示的是对少数类的召回率,即:recall=TPTP+FN(10)F1-scoreprecisionrecall表示的是精确率和召回率的一个调和平均值,表示为:F1-score=2 precisionreca

36、llprecision+recall(11)precision其中,表示的是对少数类预测的精确率,即:precision=TPTP+FP(12)g-mean在不平衡数据集分类中是常用的一个评估指标,它是正类准确率和负类准确率的一个综合指标.g-mean=TPTP+FNTNTN+FP(13)accuracy对于 CIFAR10 长尾图像数据集分类,我们遵循常用的设置,对其测试集不做改变,保持平衡,然后采用准确率作为评估标准.accuracy=TP+TNTP+FP+TN+FN(14)3.4 实验结果及分析实验选择 ERM(经验风险最小化)、Mixup 以及前面提到的 Mixup 的 3 个变体 R

37、emix、Balanced-mixup、Label-mixup 作为对比方法.3.4.1UCI 二分类实验结果分析二分类的实验结果如表 4表 6 所示,第 1 列表示数据集的名称,第 1 行表示使用的方法.我们的方法在第 1 行中用加粗标明,每个数据集的实验最优值也用加粗表示.g-mean表 4各方法在 UCI 数据集上的值数据集ERMMixupRemixBalanced-mixupLabel-mixupBorderline-mixupSpect0.2980.4970.4940.5030.4410.534Blood0.335000.52900.573Yeast0.6820.6400.6910.

38、7000.6370.767Abalone000.58900.598Ecoil0.50.6780.6220.6340.5830.786Ionosphere0.8490.8580.8720.7160.904Wilt000000.914BalanceScale0000.7280.4930.764BankMarketing0.5600.5670.6220.5680.5350.575Fertility00.0470000.228可以看到,在这 10 个数据集中,3 个评估标准的实验结果都表明:我们的方法在绝大多数情况下都是最优的.g-mean在的比较中,我们的方法在除了 BankMarket-计 算 机

39、 系 统 应 用http:/www.c-s-2023年第32卷第11期78专论综述SpecialIssueg-meang-meanrecallF1-scoreing 数据集之外的 9 个数据集中均取得最优的结果,尤其是在 Wilt 和 Fertility 数据集中,比较的几个方法取得的值大多都为 0,即出现了把少数类均分类为多数类的情况,而我们的方法 Borderline-mixup 分别能取得 0.914 和 0.228 的值.在的比较中,我们的方法也是在上述的 9 个数据集上都取得了最优.值在大多的数据集上也是取得了最优的结果.在少数的几个数据集中,我们的方法虽然没有取得最优结果,但都排在

40、第 2 或者第 3,且与第 1 的性能相差不大.由此可见,我们的方法在二分类不平衡数据集上是有效的,在极度不平衡的数据集上(例如实验中的Wilt 数据集),我们的方法所取得的性远远高于其他几种方法,这足以说明边界采样策略的有效性.recall表 5各方法在 UCI 数据集上的值数据集ERMMixupRemixBalanced-mixupLabel-mixupBorderline-mixupSpect0.090.2720.2720.2850.2120.345Blood0.114000.29900.379Yeast0.4790.4190.4930.5210.4220.668Abalone000.4

41、5800.481Ecoil0.250.4670.40.4170.350.633Ionosphere0.720.7410.3760.7730.5150.835Wilt000000.848BalanceScale0000.6220.40.741BankMarketing0.3220.3310.3980.4020.2970.345Fertility00.0330000.267F1-score表 6各方法在 UCI 数据集上的值数据集ERMMixupRemixBalanced-mixupLabel-mixupBorderline-mixupSpect0.1540.3350.3280.3420.2830

42、.349Blood0.195000.39700.427Yeast0.590.5440.5940.5740.5210.587Abalone000.46100.472Ecoil0.40.6060.5220.5530.5070.674Ionosphere0.8370.8450.5370.8570.6780.892Wilt000000.671BalanceScale0000.4780.3160.435BankMarketing0.4230.4430.4920.4750.3980.418Fertility00.0440000.1293.4.2UCI 多分类实验结果分析g-meanrecall多分类的实验

43、结果如表 7表 9 所示,对于实验的4 个不平衡数据集,我们的方法 Borderline-mixup 在和这两个评价指标中都取得了第 1 的结果,且在大多数情况下实验结果远高于第 2 名.F1-scoreF1-scoreprecisionrecallrecallprecisionprecisionprecisionprecisionprecisionF1-scoreF1-score在指标中,有 2 个数据集没能取得第 1 的结果.因为是和的调和平均值,而我们的方法在这个指标上均能取得第 1,故需要分析值来剖析原因所在.在打印出 Avila和 Chess 每个类别的值之后,我们发现,对于类别数量

44、较少的类,ERM 方法所得到的值大多都为 0,对于类别数量较多的类,取得的值较高.而我们的方法更关注少数类,故在多数类的中会丢失一部分的精度.多分类的值是对所有类的值取平均得到的结果,由precisionF1-scoreF1-scoreprecisionF1-scoreF1-score表 2 可知 Avila 和 Chess 是极不平衡的数据集,其最大不平衡比例远高于另外两个数据集,这会导致 ERM和 Borderline-mixup 在数据集中的多数类上差异较大.故我们分析得知:在 Avila 和 Chess 数据集中,ERM 的值大于 Borderline-mixup 的值,是因为这两个数

45、据集的最大不平衡比例较高,ERM在多数类上的值远高于 Borderline-mixup,通过取平均值后,ERM 的值大于 Borderline-mixup 的值.precisionF1-score这说明了对于有的极不平衡数据集,我们的方法在比较的时候可能会因为更关注少数类而丢失了一部分多数类的精度,从而在值的比较上会低于 ERM 的结果.但是,比较 Mixup 及其变体,我们的方法即使在这种情况下,也能取到最优的结果,这也反映了我们提出的 Mixup 变体是有效的.2023年第32卷第11期http:/www.c-s-计 算 机 系 统 应 用SpecialIssue专论综述79g-mean表

46、 7各方法在 UCI 数据集上的值数据集ERMMixupRemixBalanced-mixupLabel-mixupBorderline-mixupCarEvaluation0.2550.0600.47400.793Avila0.2580.12900.19600.559BalanceScale0.6270.62000.93200.958Chess0.5470.35000.51600.587recall表 8各方法在 UCI 数据集上的值数据集ERMMixupRemixBalanced-mixupLabel-mixupBorderline-mixupCarEvaluation0.2920.253

47、0.250.5080.250.740Avila0.2260.1680.0830.2260.0830.423BalanceScale0.6500.6420.3330.9080.3330.945Chess0.3890.2350.0560.3520.0560.397F1-score表 9各方法在 UCI 数据集上的值数据集ERMMixupRemixBalanced-mixupLabel-mixupBorderline-mixupCarEvaluation0.2810.2150.0900.4250.0900.555Avila0.2230.1390.0490.1320.0490.220BalanceSc

48、ale0.6240.6180.2110.8450.2110.862Chess0.3890.2120.0100.2570.0100.260多分类的实验结果可以表明,我们的方法不仅在二分类中是有效的,在多分类中也能取得优异的结果.这进一步证明了我们设计的边界采样策略的有效性.3.4.3CIFAR 长尾数据集图像分类实验结果分析accuracyCIFAR10-LT 数据集中,测试集是保持不变,即平衡的.所以我们采用来衡量各方法的性能.实验结果如表 10 所示.accuracy表 10各方法在 CIFAR10-LT 中的(%)数据集CIFAR10-LT_100CIFAR10-LT_200ERM72.1

49、5465.58Mixup73.1367.102Remix75.7669.92Balanced-mixup75.8569.906Label-mixup75.5169.806Borderline-mixup76.29670.722=100=200可以看到,在基准的图像长尾数据集 CIFAR10-LT当中,我们的方法是最优的.在不平衡比例时,相比 Mixup 我们的方法 Borderline-mixup 提升了3.1%左右,在时,Borderline-mixup 相比于Mixup 提升了 3.6%左右.4结语本文提出了一种数据增强(扩充)方法:边界混合(Borderline-mixup),旨在于提高

50、神经网络在不平衡数据集上的分类性能,Borderline-mixup 的创新点在于,它使用 SVM 先选择出边界样本,依据我们给定的采样概率得到两个边界采样器的样本,再对得到的样本进行混合.该算法在不平衡的二分类和多分类数据集以及 CIFAR10 长尾数据集上都取得了优于 Mixup 及其相关变体的结果,实验证明了我们提出的 Borderline-mixup 算法在处理不平衡数据集的有效性.日后我们还需对边界样本的采集以及实验进行更深入研究和扩展.参考文献Japkowicz N.Learning from imbalanced data sets:Acomparison of various

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服