收藏 分销(赏)

基于欧式距离聚类的自适应过采样方法.pdf

上传人:自信****多点 文档编号:2354910 上传时间:2024-05-28 格式:PDF 页数:16 大小:2.90MB
下载 相关 举报
基于欧式距离聚类的自适应过采样方法.pdf_第1页
第1页 / 共16页
基于欧式距离聚类的自适应过采样方法.pdf_第2页
第2页 / 共16页
基于欧式距离聚类的自适应过采样方法.pdf_第3页
第3页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、PRINTING AND DIGITAL MEDIA TECHNOLOGY STUDY Tol.226 No.5 2023.10印刷与数字媒体技术研究 2023年第5期(总第226期)RESEARCH PAPERS研究论文基于欧式距离聚类的自适应过采样方法董洪荣1,付亚军1,张 帅1,余亚强2,陈 军2,谢德红3*(1.江苏劲嘉新型包装材料有限公司,淮安 223005;2.湖北强大包装实业有限公司,红安 438400;3.南京林业大学 信息科学技术学院,南京 210037)摘要 很多分类器难以识别不平衡数据中的少数类,给缺陷检测等众多应用带来了挑战。当前许多过采样方法虽可有效增加少数类样本,但

2、却存在类重叠增加的风险。本研究提出了一种基于欧式距离聚类的自适应过采样方法。该方法采用基于欧式距离的构造覆盖算法对少数类进行聚类,然后自适应识别出相对安全和靠近分类边界的少数类聚类,再在此聚类内采用SMOTE采样步骤合成新少数类样本。通过10个不平衡数据集以及G-mean、F1-measure、AUC等指标验证。实验结果显示,与现有过采样方法相比,该方法在大多数数据集上,G-mean、F1-measure和AUC三个指标均最优。结果表明,本研究方法有效弥补现有分类的缺陷,获得较好分类结果。关键词 不平衡数据;分类;欧式距离;聚类;机器学习中图分类号 TP181文献标识码 A文章编号 2097-

3、2474(2023)05-26-16DOI 10.19370/10-1886/ts.2023.05.003Adaptive Oversampling Method Based on Euclidean Distance ClusteringDONG Hong-rong1,FU Li-jun1,ZHANG Shuai1,YU Ya-qiang2,CHEN Jun2,XIE De-hong3*(1.Jiangsu Jinjia New Style Packaging Material Co.Ltd.,Huaian 223005,China;2.Hubei Qiangda Packaging Ind

4、ustry Co.,Ltd,Hongan 438400,China;3.College of Information Science and Technology,Nanjing Forestry University,Nanjing 210037,China)Abstract It is hard for many classifiers to identify minority class samples in imbalanced data,which poses challenges for many applications such as defect detection.Many

5、 state-of-art oversampling methods can effectively generate synthetic samples of minority class,but they have the risk of increasing overlap between minority and majority classes.In this study,an adaptive oversampling method based on Euclidean distance clustering was proposed.With this method,all mi

6、nority class samples were clustered into each sub-cluster based on Euclidean distance clustering.Then,all sub-clusters of the minority class were adaptively labelled as safe and borderline according to its distance to the border boundary of majority class.Finally,new synthetic samples of the minorit

7、y class were generated using 收稿日期:2023-04-09 修回日期:2023-05-12 *为通讯作者本文引用格式:董洪荣,付亚军,张帅,等.基于欧式距离聚类的自适应过采样方法J.印刷与数字媒体技术研究,2023,(5):26-41.2023年5期印刷与数字媒体技术研究.indd 262023年5期印刷与数字媒体技术研究.indd 262023/10/7 16:20:122023/10/7 16:20:1227研究论文董洪荣等:基于欧式距离聚类的自适应过采样方法0 引言在信用风险评估1-2、医学诊断3-5、缺陷预测6、轴承故障诊断7等分类应用中,数据集均不平衡,

8、且少数类至关重要8。但是,绝大多数分类器容易忽略少数类样本,导致少数类样本无法正确分类9。因此,提高少数类样本的被识别率至关重要。目前,针对少数类的识别问题,可分两类方法:算法层面的方案和数据层面的方案9。算法层面的方案主要通过改进传统的分类器或优化分类器的性能来提高对少数类的识别率10。数据层面的方案分为欠采样11、过采样12和混合采样13。采样方法通过调整多数类或少数类的样本数目使得类不平衡的数据集达到均衡来满足分类器的分类要求。鉴于欠采样存在删除重要信息、导致后期分类出现欠拟合的危险14,过采样具有更好的适用性15。SMOTE(Synthetic Minority Over-sampli

9、ng Technique)16 作为典型的过采样方法,在很多应用中取得了较好的分类效果。SMOTE只是简单地在相邻两个少数类样本之间利用线性插值法产生一个新的样本,并未考虑多数类样本的分布情况。然而,多数类样本的部分可能导致新产生的样本为噪声样本或加剧两类样本重叠程度,而给分类器带来新的挑战17-18。文献19认为,好的过采样方法不应增加分类难度及分类器分类挑战。Borderline-SMOTE20和ADASYN21考虑多数类样本的分布,减少了噪声样本的产生,但增加重叠性的问题仍未得到有效改善。Safe-level-SMOTE22选取远离重叠区域样本进行过采样,有效避免了增加重叠性问题,但由于

10、新样本离分类超平面较远,决定分类超平面的信息量较少。为了解决重叠性增加的问题,Cluster-SMOTE23采用K-均值聚类方法将少数类分为若干个聚类区域,再用SMOTE在聚类区域内进行过采样。此聚类区域中,大多数样本为少数类样本,并无法确定是否存在多数类样本。由此,Cluster-SMOTE只是在一定的程度上降低重叠性的增加。MWMOTE17利用欧几里德距离给每个少数类样本赋予权重,并依据权重选取用于过采样的候选样本,确保新生成样本在少数样本分布内部,以减少重叠性的增加。A-SWUO 24利用半无监督层次聚类算法自适应地获得不同大小的少数类聚类区域,减少聚类区域存在多数类样本的可能性。综上所

11、述,上述方法在不同程度上缓解样本噪声和重叠性增加的问题,但仍待进一步完善。本研究在上述方法的启发下,提出了一种称为基于欧式距离聚类的过采样方法。该方法主要目的是在适宜的少数类聚类内部合成新样本,以避免合成样本加剧类与类之间的重叠并提高少数类的被识别率。在此方法中,先采用基于欧式距离对少数类样本进行聚类,再根据K近邻算法计算每一个少数类聚类的近邻样本中多数类的占比,以此为依据选择相对安全和相对靠近分类边界的少数类聚类作为适宜过采样的聚类。然后,在选择的聚类中,依据样本分布的密度和聚类与其近邻多数类样本的平均欧式距离,自适应地计算合成样本数目。最后,采用SMOTE 16 在聚类内生成新少数类样本。

12、1 算法描述基于欧式距离聚类的自适应过采样方法包括4个主要步骤:构造少数类聚类;自适应获得适SMOTE oversampling within each selected sub-cluster.Ten imbalanced datasets,as well as G-mean,F1-measure,and AUC metrics were evaluated.The experimental results showed that,compared with some state-of-art oversampling methods this method performs best in

13、 the dataset when evaluated by G-mean,F1-measure,and AUC metrics.This result indicated that the proposed method effectively compensates for the shortcomings of the classifiers and achieves good classification results.Key words Imbalanced Data;Classification;Euclidean distance;Clustering;Machine lear

14、ning2023年5期印刷与数字媒体技术研究.indd 272023年5期印刷与数字媒体技术研究.indd 272023/10/7 16:20:122023/10/7 16:20:1228印刷与数字媒体技术研究2023年第5期(总第226期)宜过采样的少数类聚类;自适应适宜过采样聚类的大小;生成综合少数类样本。在步骤中,使用一种基于欧式距离的构造覆盖算法对少数类进行全局聚类,在每次迭代中不考虑已经形成聚类的少数类样本,以确保识别出所有的少数类聚类。在步骤中,根据 K近邻算法计算得到的少数类聚类的近邻多数类样本的平均值,自适应选择出适宜过采样的聚类。在步骤中,根据聚类本身的密度和近邻多数类与其的

15、平均距离确定每一个适宜过采样的聚类所被分配的过采样权重。在步骤中,提出了一种基于SMOTE的两步过采样方法、在适宜过采样的聚类内部生成相应数量的新少数类 样本。1.1 基于欧式距离的构造覆盖算法不同于K-均值聚类算法25,基于欧式距离的构造覆盖算法是一种面向全局的聚类方法。在此方法中,为了消除数据变量间的量纲关系,需先对数据进行规范化预处理。在本研究的构造覆盖算法中,首先在不平衡数据集中随机选择一个少数类样本作为聚类中心,再计算每一个多数类样本与聚类中心之间的欧式距离,并将最小的距离值看作阈值。然后,寻找剩余的少数类样本中是否存在与聚类中心的欧式距离小于等于阈值的样本。若存在,则将这些少数类样

16、本与聚类中心之间距离最大的值记为,这样构成一个以该聚类中心为圆心、半径r为和的平均值的聚类;若不存在,则该聚类中心单独形成一个聚类,半径r等于2。这之后,重复上述内容直到构成所有的少数类聚类。此聚类方法的具体步骤如下所示。步骤1:数据规范化预处理。数据归一化到-1,1。步骤2:构造少数类聚类。假设不平衡数据集X的特征维数是n,其中,少数类为P=p1,p2,ppnum,多数类为Q=q1,q2,qqnum,pnum是少数类的样本数,qnum是多数类的样本数,X=PQ。从少数类P中随机选择一个样本作为聚类中心pc,然后根据下列步骤计算此聚类的半径值r。1)计算聚类中心pc与多数类样本的欧式距离,如式

17、(1)所示。()()()2211,1,2,nnciciciD p qpqpqiqnum=+(1)2)计算阈值,即聚类中心pc与最接近它的多数类样本之间的距离,如式(2)所示。()min,1,2,ciD p qiqnum=(2)3)计算聚类中心pc与其他少数类样本之间的距离如式(3)所示,然后通过式(4)求出距离在(0,区间内的最大值,记为。()()()2211,1,2,nncjcjcjD ppppppjpnum=+(3)()()max,0,1,2,cjcjD ppD ppjpnum=(4)4)计算聚类半径r,如式(5)所示。2r+=(5)根据式(2)式(6)可以得到一个以pc为中心、r为半径的

18、少数类聚类,将已经形成聚类的少数类样本标记为“已被学习”。步骤3:不考虑标记为“已被学习”的样本,重复上述步骤2,直到所有的少数类样本都被标记为“已被学习”。最终得到m个少数类聚类,合集为Cmin=c1,cm,对应的每一个聚类的半径的合集为。1.2 自适应获得适宜过采样的少数类聚类大多数过采样方法根据K近邻算法来选择适宜过采样的少数类样本,一般分为两个方向。第一种是选择近邻中多数类样本的个数在区间内的少数类样本进行过采样22,这些样本远离分类边界,简称为安全少数类样本;另外一种是选择近邻中多数类样本的个数在区间内的少数类样本进行过采样20,这些少数类样本在分类边界附近,简称为边界少数类样本。在

19、第一种方法中,合成样2023年5期印刷与数字媒体技术研究.indd 282023年5期印刷与数字媒体技术研究.indd 282023/10/7 16:20:132023/10/7 16:20:1329研究论文董洪荣等:基于欧式距离聚类的自适应过采样方法本容易造成欠采样问题,而在第二种方法中,合成样本容易增加类与类之间的重叠,泛化少数类的范围,降低分类器的性能。这两种方法中的K值都需要自定义,K值的大小直接影响了少数类样本被分为安全少数类样本还是边界少数类样本。为了解决上述问题,本研究提出了一种自适应获得适宜过采样的少数类聚类的方法。在该方法中,首先计算每一个少数类聚类ci,i=1m中所含样本的

20、数目,再将K值设置为这些数目中的最大值。然后,对于内部含有两个及以上样本的少数类聚类,根据这些聚类近邻中多数类样本的分布情况,选择一些相对安全和相对靠近分类边界的少数类聚类作为适宜过采样的聚类。值得注意的是,本研究的方法对于内部只含有一个样本的少数类聚类不做过采样处理。自适应获得适宜过采样的少数类聚类的方法的具体步骤如下。步骤1:自适应得到K值,计算公式如式(6)所示。(6)其中,Num(ci)表示统计少数类聚类ci中样本数量的函数。步骤2:筛选出ci中内部含两个及以上样本的聚类,其集合记为。步骤3:通过式(7)计算聚类nci近邻的多数类样本数的平均值Hi。(7)其中,ij是指聚类nci中第j

21、个少数类样本的K个近邻样本中属于多数类的样本数目。步骤4:选择Hi值在区间内的少数类聚类作为适宜过采样聚类。将h个适宜过采样的少数类聚类的合集记为,对应聚类半径的合集为。1.3 自适应适宜过采样聚类的大小在基于欧式距离聚类的自适应过采样方法中,建议在适宜过采样的少数类聚类内部生成新样本。这样做的目的是为了避免新样本与原始多数类样本发生重叠,并减少新样本对少数类范围的泛化。在此之前,需要根据聚类的密度和聚类与近邻多数类样本的平均欧式距离这两个因素来对每一个适宜过采样的聚类分配权重,然后根据权重自适应得到聚类内部需要合成的新样本的数目,即适宜过采样聚类的大小。根据上述因素对适宜过采样聚类赋予权重的

22、原因有两点:第一点,聚类的密度越小,说明其内部样本的离散性越高,合成样本与聚类内部样本重叠的概率低,对分类的帮助更大;第二点,聚类与近邻多数类样本的平均欧式距离越大,说明此少数类聚类离分类边界越远,则在其内部生成的样本更安全。由上述可知,密度越小且离多数类越远的适宜过采样聚类,其被赋予的权重越大,此聚类也越大。具体的步骤如下。步骤1:通过式(8)计算适宜过采样聚类mci的密度density(mci)。(8)步骤2:计算适宜过采样聚类mci与其近邻多数类样本的平均欧式距离。(9)其中,pi是聚类mci中的第个少数类样本;qi()是pi的K个近邻样本中的第个多数类样本,且K值依据经验设置为5;i是

23、pi的K个近邻样本中标签为多数类的样本的总数目;D(pi,qi()是指pi与qi()之间的欧式距离;Num(mci)代表聚类mci内所含的样本总数。步骤3:分配适宜过采样聚类mci的过采样权重Wi。为了使合成的样本更安全且有助于分类,本研究的方法旨对聚类的密度density(mci)越小和与近邻多数类样本的平均欧式距离越大的聚类分配更大的权重。为了方便计算,将聚类的密度density(mci)2023年5期印刷与数字媒体技术研究.indd 292023年5期印刷与数字媒体技术研究.indd 292023/10/7 16:20:132023/10/7 16:20:1330印刷与数字媒体技术研究2

24、023年第5期(总第226期)转换为,f(mci)越大则意味着聚类mci的密度越小。已知,density(mci)与这两个因素对聚类mci所应分配权重的影响是不同的。由于目前无法确定哪一个因素的影响力更大,在本研究的方法中引入了一个常数参数G,G的范围在区间(0,1)内,其最佳值取决于数据集。有关对参数G 选择合理值的进一步建议,将在后文中进行论述。式(10)是分配聚类mci的过采样权重Wi的具体公式。(10)其中,G是指聚类的密度这一因素对该聚类所分配权重的影响的比重,1-G则是指聚类与其近邻多数类的平均欧式距离这一因素对该聚类所分配权重的影响的比重。步骤4:自适应适宜过采样聚类mci的大小

25、。在这一步中,通过将聚类mci的权重除以所有权重的和,可以得到聚类mci的分配概率gi,然后根据分配概率gi和多数类样本数与少数类样本数的差值自适应得到聚类mci的大小,具体的公式如式(11)、式(12)所示。(11)(12)其中,Ni是指第i个适宜过采样聚类内需要生成的综合少数类样本的数量。1.4 生成综合少数类样本传统的SMOTE合成的样本处在两个少数类样本的连线之间。在本研究中,如果在适宜过采样的少数类聚类中直接采用SMOTE,合成样本所处的范围具有一定的局限性。为此,本研究提出了一种基于SMOTE的两步过采样方法,在每一个适宜过采样的少数类聚类内生成综合少数类样本。此方法将生成的样本限

26、定在少数类聚类内3个随机样本形成的三角区域内,与在聚类中使用SMOTE相比,扩展了新样本的范围,降低了合成样本与聚类内少数类样本的重复率。此外,由于该方法生成的样本均在少数类聚类所划分的区域内,避免了新样本与原始多数类样本发生重叠,在很大程度上减少了合成样本对少数类范围的泛化。具体的步骤如下。步骤1:合成中介样本p,如式(13)所示。()112=0,1tttpprandpp+(13)在此步骤中,pt1和pt2是从聚类mci中随机选取两个少数类样本,p是pt1和pt2利用SMOTE算法合成的一个样本,它不是最终合成的新样本,因此称之为中介样本。特别地,当mci中的样本只有pt1和pt2时,中介样

27、本即为最终合成的新少数类样本。反之,则执行步骤2。步骤2:合成新少数类样本pnew。在这个步骤中,首先需要在聚类mci中随机选取一个除pt1和pt2以外的样本pt3。然后,再次使用SMOTE,利用中介样本p和pt3合成最终的新少数类样本pnew,如式(14)所示。()new3=0,1tpprandpp+(14)步骤3:重复步骤12,直到在mci内合成的新样本的数量累计至Ni。2 实验结果与讨论 为了对基于欧式距离聚类的自适应过采样方法进行性能评估,本研究采用了一组模拟数据集和加州大学欧文分校(University of California Irvine,UCI)提出的用于机器学习的数据库中的

28、9组数据集进行实验。其中,模拟数据集是由均值分别为-2,2和-2,1,协方差矩阵分别为0.3,0;0,0.55和0.2,0;0,0.35、呈高斯分布的二维数据组成的。9组UCI数据来自玻璃种类识别、图像分割、蛋白质定位位点和不同种群鲍鱼的识别这4个领域。在本研究中,整个实验在64位操作系统、8.00GB RAM、1.4GHz CPU的工作站上用Matlab软件实现。由于本研究仅考虑二分类问题,因此对于包含两个以上类别的数据集,需要将其转化为只有两个类别的数据集。据此,10组用于实验的数据集的详细信息见表1。每个数据集有8个属性,即数据集的名称、少数类的类别标签、多数类的类别标签、数据的特征维数

29、、2023年5期印刷与数字媒体技术研究.indd 302023年5期印刷与数字媒体技术研究.indd 302023/10/7 16:20:142023/10/7 16:20:1431研究论文董洪荣等:基于欧式距离聚类的自适应过采样方法数据集的总样本数、少数类的样本数、多数类的样本数和不平衡率。本研究选取了SMOTE16、Safe-level-SMOTE22、Cluster SMOTE23、MWMOTE17和A-SUWO24这5个过采样方法与本研究提出的过采样方法进行了对比实验,并采用高斯核支持向量机(RBFSVM)26-27、朴素贝叶斯分类器(NBC)28、线性判别分析(LDA)24,29和最

30、近邻分类器(KNN)30这4个传统的分类器来评估这些过采样方法。作为参考,本研究还给出了4个分类器对原始的不平衡数据集的分类结果。即本实验一共构造了28个预测模型,并通过对上述10组不平衡数据集进行分类处理来检验和比较这些预测模型的性能。5个对比过采样算法的参数设置与原文保持一致,详细信息见表2。对于本研究提出的过采样方法,参数G在0.3,0.7区间中选取,采样倍率为100%。此外,4个分类器的参数的设置如下:对于RBFSVM,成本C的值在(2-6,210)区间中选取;KNN中,近邻的数量设置为5;NBC和LDA不需要调整参数。2.1 评价指标混淆矩阵又称为可能性表格,可以可视化分类器的性能3

31、1。在类不平衡数据分类问题中,通常将少数类标记为正类,将多数类标记为负类。表3给出了相应的二分类的混淆矩阵,其中,TP代表实际为正类且被预测为正类的样本数量;FP代表实际为负类但被预测为正类的样本数量;FN代表实际为正类但被预测为负类的样本数量;TN代表实际为负类且被预测为负类的样本数量。根据混淆矩阵可以得到不同的性能指标。本实验中,采用查准率(Precision)、假虚报率(FPR)、F1-measure、G-mean和AUC这5个性能指标作为比较不同方法的评价指标。表3 二分类的混淆矩阵Tab.3 Confusion matrix of binary classification 正类样本

32、负类样本正类预测TPFP负类预测FNTN查准率是指在所有预测为正类的样本中真实正类所占的比例,是反映预测模型识别正类样本的准确度的重要指标之一。查准率越大,说明预测模型识别正类样本的精确度越高。假虚报率代表被错误预测为正类的负类样本在所有真实为负类的样本中的比例,可以反映预测模型对负类样本的识别情表1 不平衡数据集Tab.1 Imbalanced datasets序号数据集少数类多数类特征数样本数少数类样本数多数类样本数样本比例1Simulate data“-1”“1”22505020014.002Vehicle“1”“2”“3”“4”“0”1029410618811.773Glass“2”A

33、ll other92147613811.824Segmentation“FOLIAGE”“WINDOW”All other192106015012.505Ecoli“IM”All other73367725913.366Yeast“MIT”All other81484244124015.087Abalone_8“8”All other74177568360916.358Libra“2”“3”All other903604831216.509Abalone_6“6”All other741772593918115.1210Abalone_5“5”All other741771154062135.

34、32表2 SMOTE、Safe-level-SMOTE、Cluster SMOTE和A-SUWO的参数设置Tab.2 Parameters of SMOTE,Safe-level-SMOTE,Cluster SMOTE and A-SUWO方法参数SMOTE邻域数量=5;采样倍率=100%Borderline-SMOTE邻域数量=5;采样倍率=100%Safe-level-SMOTE邻域数量=5;采样倍率=100%Cluster SMOTE邻域数量=6;采样倍率=100%A-SUWOcthres(1,2),NN(3,5),NS(4,6);采样倍率=100%2023年5期印刷与数字媒体技术研究.

35、indd 312023年5期印刷与数字媒体技术研究.indd 312023/10/7 16:20:142023/10/7 16:20:1432印刷与数字媒体技术研究2023年第5期(总第226期)况。假虚报率越小,说明预测模型对负类样本的误分率越低,即预测模型对负类样本的识别的结果越理想。查准率和假虚报率的具体公式如式(15)、式(16)所示。(15)FPFPRFPTN=+(16)查准率和假虚报率对分类结果的评价比较单一,因此在大多数检验解决不平衡数据分类问题的方法的过程中还会采用F1-measure、G-mean、AUC这3个综合评价指标。F-Measure是一种针对正类分类结果的综合性能指

36、标,是召回率(Recall)和查准率的加权调和平均值。其中,召回率指实际为正类且被预测为正类的样本数量与所有真实正类样本数量之比。本研究中将参数设置为1,表示召回率与查准率相对同等重要,记作F1-measure。F1-measure越大,说明预测模型对正类的分类结果越好。(17)(18)G-mean也是一种综合性能指标,是召回率和特意度(Specificity,TNR)的几何平均值。其中,特意度是被预测为负类且真实为负类的样本在所有负类实例中的占比。G-mean综合考虑了两类的精度,当正类和负类都能很好地被预测模型识别时,G-mean才能取得较理想的值。G-mean公式具体如式(19)、式(2

37、0)所示。(19)(20)AUC是一种常用于评估不平衡数据分类的综合性能指标,是受试者工作特性曲线(ROC)下与坐标轴围成的面积。其中,ROC是根据一系列不同的二分类方式(分界值或决定阈),以召回率为纵坐标、假虚报率为横坐标绘制的曲线。ROC越靠近左上角,AUC值越大,说明预测模型越好,具有高召回率、低假虚报率的特点。根据文献31,AUC值具体的运算公式如式(21)所示。(21)2.2 结果和分析本实验采用三层交叉验证,通过训练集,优化了4个分类器和6个过采样方法的参数。采用G-mean作为参数优化的标准,因为G-mean是反应各类别分类结果的综合性能指标,且根据文献32可知,在类不平衡分类问

38、题中,它具有一定的参考价值。为了减少各采样方法合成样本的随机性对分类结果的影响,每个实验重复5次,所有评价指标取平均值。表4为过采样前后4个分类器的10个数据集的查准率的结果,其中最大的值以粗体显示。当使用LDA时,对于高度不平衡的第10组数据集,本研究的过采样方法得到的查准率略低于A-SUWO,两者之间仅相差0.81%,差异并不显著。除此之外,在其他所有情况下本研究的过采样方法都取得了最高的查准率。当使用RBFSVM和KNN时,对于10组被测试数据集,本研究的过采样方法和5个对比过采样方法的假虚报率均比它们原始的假虚报率更高。与其他5个过采样方法相比,本研究过采样方法的假虚报率是最低的。当使

39、用NBC时,本研究的过采样方法对第5组数据集的假虚报率与其原始的假虚报率相同,略高于A-SUWO的结果,但两者之间的差异并不显著。对于其他数据集,本研究的过采样方法的假虚报率均比5个对比过采样方法的假虚报率更低。此外值得关注的是,10组被测试数据集中有6组数据集的原始假虚报率高于本研究过采样方法的假虚报率。当分类器是LDA时,对于前9组数据集,本研究的过采样方法的假虚报率高于原始的假虚报率,低于其他5个过采样方法。对于第10组数据集,本研究的过采样方法的假虚报率略高于A-SUWO,但两者的差异不大。根据上述分析,在4个传统分类器下,相较于其他5个过采样方法,本研究的过采样方法具有高查准率、低假

40、虚报率的特点。换句话说,本研究的过采样方法既有效提高了少数类样本的可识别率,又确保了多数类样本能最2023年5期印刷与数字媒体技术研究.indd 322023年5期印刷与数字媒体技术研究.indd 322023/10/7 16:20:152023/10/7 16:20:1533研究论文董洪荣等:基于欧式距离聚类的自适应过采样方法表4 过采样前后分类的查准率平均值Tab.4 Average values of precision before and after oversampling分类器:RBFSVM序号DatasetOriginalSMOTEBorderline-SMOTESafe-le

41、vel-SMOTECluster SMOTEA-SUWO本研究方法1Simulate data0.9145 0.9042 0.8544 0.9249 0.9171 0.9150 0.9804 2Vehicle0.9302 0.8898 0.8817 0.9122 0.9187 0.9052 0.9328 3Glass0.9800 0.9595 0.9572 0.9692 0.9571 0.9768 0.9897 4Segmentation0.9744 0.9613 0.9545 0.9666 0.9648 0.9638 0.9868 5Ecoli0.8671 0.9034 0.8611 0.9

42、093 0.9211 0.8457 0.9485 6Yeast0.9150 0.9486 0.9536 0.9500 0.9368 0.9379 0.9820 7Abalone_8NaN0.8403 0.8275 0.8121 0.8704 0.7809 0.9957 8Libra0.9704 0.9775 0.9775 0.9800 0.9723 0.9826 0.9862 9Abalone_6NaN0.8537 0.8596 0.8765 0.8496 0.8501 0.9305 10Abalone_5NaN0.9362 0.9263 0.9421 0.9410 0.9437 0.9528

43、 分类器:NBC序号DatasetOriginalSMOTEBorderline-SMOTESafe-level-SMOTECluster SMOTEA-SUWO本研究方法1Simulate data0.8000 0.8327 0.6795 0.8629 0.8256 0.8816 0.9026 2Vehicle0.7600 0.8499 0.8331 0.8643 0.8581 0.8596 0.8667 3Glass0.5238 0.6559 0.6576 0.6760 0.6093 0.7514 0.8050 4Segmentation0.6429 0.8217 0.8082 0.821

44、3 0.8319 0.8104 0.9028 5Ecoli0.5904 0.8351 0.8130 0.8367 0.8312 0.8396 0.8404 6Yeast0.7153 0.7495 0.6462 0.8020 0.7802 0.7987 0.8434 7Abalone_80.2857 0.7031 0.6827 0.7443 0.6575 0.7295 0.7463 8Libra0.3590 0.7925 0.8050 0.7984 0.8328 0.8118 0.8598 9Abalone_60.1962 0.7767 0.7712 0.8093 0.8264 0.7813 0

45、.8318 10Abalone_50.2667 0.9306 0.9166 0.9421 0.9444 0.9487 0.9757 分类器:LDA序号DatasetOriginalSMOTEBorderline-SMOTESafe-level-SMOTECluster SMOTEA-SUWO本研究方法1Simulate data0.8095 0.8154 0.6816 0.8472 0.8207 0.8808 0.9199 2Vehicle0.8182 0.8714 0.8341 0.8733 0.8756 0.8529 0.8804 3Glass0.5484 0.7281 0.7307 0.

46、7209 0.7141 0.7477 0.8028 4Segmentation0.9286 0.9279 0.9144 0.9203 0.9204 0.9279 0.9452 5Ecoli0.7368 0.8335 0.8158 0.8403 0.8432 0.8432 0.8508 6Yeast0.6316 0.8046 0.6813 0.8275 0.8166 0.8180 0.8247 7Abalone_8NaN0.6765 0.6813 0.6922 0.7125 0.6998 0.8720 8Libra0.9231 0.9503 0.9722 0.9649 0.9511 0.9550

47、 0.9722 9Abalone_60.0000 0.7875 0.7825 0.8104 0.8089 0.7615 0.8140 10Abalone_50.3333 0.9086 0.9087 0.9136 0.9223 0.9260 0.9179 分类器:KNN序号DatasetOriginalSMOTEBorderline-SMOTESafe-level-SMOTECluster SMOTEA-SUWO本研究方法1Simulate data0.8214 0.8560 0.7852 0.8886 0.8613 0.9015 0.9418 2Vehicle0.8475 0.8369 0.8

48、079 0.8499 0.8599 0.8596 0.8605 3Glass0.8837 0.8760 0.8577 0.8850 0.8891 0.9023 0.9079 4Segmentation0.9512 0.9665 0.9580 0.9699 0.9717 0.9638 0.9810 5Ecoli0.9388 0.8968 0.8786 0.9191 0.9007 0.9056 0.9464 6Yeast0.8116 0.8626 0.8326 0.9055 0.8733 0.9014 0.9425 7Abalone_80.7647 0.8128 0.8102 0.8609 0.8

49、165 0.8499 0.9546 8Libra0.8108 0.9586 0.9604 0.9600 0.9517 0.9676 0.9689 9Abalone_60.6471 0.8844 0.8886 0.9353 0.8785 0.9242 0.9824 10Abalone_50.7857 0.9588 0.9558 0.9718 0.9636 0.9777 0.9964 2023年5期印刷与数字媒体技术研究.indd 332023年5期印刷与数字媒体技术研究.indd 332023/10/7 16:20:152023/10/7 16:20:1534印刷与数字媒体技术研究2023年第5

50、期(总第226期)大限度地被正确识别。从总体上讲,在查准率和假虚报率这两个评价指标上,本研究的过采样方法优于其他5个对比过采样方法。表5表8为过采样前后分类的F1-measure、G-mean和AUC的指标值。其中,加粗数据为各数据集各指标下最好的结果。当分类器是RBFSVM时,本研究过采样方法对10个数据集中7个数据集的3个综合评价指标都是最大的。当使用NBC时,比较G-mean和AUC的值,本研究过采样方法对10个数据集中的8个数据集都获得了最好的结果。比较F1-measure的值,有6个数据集是本研究过采样方法获得了较大的值。当使用LDA时,比较G-mean和AUC的值,本研究的过采样方

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服