1、第41卷 第4期2023年7月应用科学学报JOURNAL OF APPLIED SCIENCESElectronics and Information EngineeringVol.41 No.4Jul.2023DOI:10.3969/j.issn.0255-8297.2023.04.010基于非平衡问题的高斯混合模型卷积神经网络徐红1,矫桂娥2,3,张文俊31.上海海洋大学 信息学院,上海市 2013062.上海建桥学院 信息学院,上海市 2013063.上海大学 上海电影学院,上海市 200072摘摘摘要要要:为了提升分类模型对非平衡数据的分类性能,提出一种 EMWRS(expectati
2、on-maximization weighted resampling)抽样算法和 WCELoss(weighted cross entropy lossfunction)损失函数,在数据预处理阶段采用高斯混合模型得知数据分布特点,根据其聚类结果分析每个聚类簇中样本权重,以及样本分布和对应权重对数据进行采样,降低数据集不平衡程度;再依据样本比例权重对少数类和多数类赋予不同的代价损失,构建卷积神经网络模型,提高非平衡数据集的分类准确性。构建的卷积神经网络以 F1 和 G-mean 为评价指标,在UCI(university of California irvine)公共数据集 adult 上与
3、SMOTE(synthetic minorityover-sampling technique)和 ADASYN(adaptive synthetic sampling)等多种经典算法进行比较,结果显示在这两种评价指标中所提模型均为第一,这表明改进后的卷积神经网络模型能够很好地提高少数类分类正确率。关键词:非平衡数据;高斯混合模型;样本加权;代价损失;卷积神经网络中图分类号:TP183文章编号:0255-8297(2023)04-0657-12Gaussian Mixture Model Convolution Neural NetworkBased on Imbalanced Problem
4、XU Hong1,JIAO Guie2,3,ZHANG Wenjun31.School of Information,Shanghai Ocean University,Shanghai 201306,China2.School of Information,Shanghai Jianqiao University,Shanghai 201306,China3.Shanghai Film Academy,Shanghai University,Shanghai 200072,ChinaAbstract:Imbalanced data classification is a challengin
5、g task in big data mining.Thedistribution of imbalanced data seriously affects the classification performance of models,especially for minority classes.In this paper,an expectation-maximum weighted resampling(EMWRS)algorithm and weighted cross entropy Loss(WCELoss)function are proposedto improve the
6、 classification performance of imbalanced data.The proposed approach uti-lizes a Gaussian mixture model to preprocess the data and employs weighted samplingand cost-sensitive learning to construct a convolutional neural network model.The con-structed convolutional neural network is evaluated using F
7、1 and G-mean as indicators,收稿日期:2021-09-25基金项目:校级重点科研项目(No.sjq17007);江苏省研究生科研与实践创新基金(No.SJCX20_1352)资助通信作者:矫桂娥,副教授,研究方向为数字媒体及应用、大数据分析及可视化。E-mail:658应用科学学报第41卷and compared with various classic algorithms such as SMOTE(synthetic minor over sam-pling technique)and ADASYN(adaptive synthetic sampling)on
8、the adult datasets of UCI(university of California irvine).The experimental results demonstrate that the proposedmodel outperforms ADASYN and other classical algorithms in terms of F1 and G-meanon UCI adult datasets,which indicates that the proposed model effectively enhances theaccuracy of minority
9、 classification.Keywords:imbalance data,Gaussian mixture model,sample weighting,cost loss,convo-lutional neural network非平衡问题是在数据集中不同类别分布差异较大,即样本数量多的类为多数类,拥有少量样本的类为少数类,类别分布不平衡的数据集增加了分类任务的难度,但是在分类任务中对于少数类的检测非常的重要。比如银行用户防诈骗检测、医疗疾病诊断、客户流失数据检测、设备故障检测等1-5。传统的分类学习器适合类别平衡分布的数据集,在对非平衡数据集分类时,模型会受多数类样本影响导致分类结果
10、向多数类倾斜,从而会有少数类分类错误,但在数据挖掘中少数类的信息价值更高,因此更准确地判别少数类,对于非平衡分类问题的研究非常重要。研究人员对该类问题的解决方法主要有两大主流方法:数据层面和算法层面。数据层面的方法主要是对原始数据进行重采样6和特征处理,改变数据分布状态,在数据预处理阶段降低类别非平衡程度,采样方法主要有欠采样、过采样和融合7。欠采样算法主要通过舍弃部分多数类样本,以达到样本类别的平衡;过采样算法根据某些规律生成少数类样本,来解决数据集中的不平衡问题;融合采样方法则融合了欠采样算法和过采样算法,舍弃部分多数类样本,增加少数类样本,进而平衡非平衡样本的分布。这些方法都是在数据层面
11、的调整,让数据在输入分类模型前就实现分布平衡,但这种简单生成新样本的过采样方法在一定程度上会生成噪声样本,非但起不到提高检测少数类精确率的效果,还会对多数类的判别产生混淆影响。算法层面的方法主要有集成方法8和代价敏感方法9,其思路是设计一个特定用于非平衡分类的算法。集成学习思想是将弱学习器组合成一个强学习器,弱学习器之间是否互通又将集成学习划分为 Boosting 和 Bagging 两类集成学习算法。代价敏感算法是针对传统分类器而提出的一种类似惩罚策略的算法,对于不同类别分类错误赋予不同大小的惩罚来构建分类学习器,一般是少数类分类错误代价更高。算法层面的改进方法,目的是解决特定非平衡问题,实
12、际应用中有多种特定的非平衡算法,其中卷积神经网络因为其优越的特征提取性能而广泛应用于非平衡问题中。卷积神经网络的发展在计算机视觉、自然语言等领域都取得了较好的成果,卷积神经网络可以用较少的参数获得更好的性能,作为一种高效的数据挖掘方法,许多研究人员将其用于解决非平衡问题。为解决非平衡问题,在数据预处理阶段对非平衡数据集抽样较多采用过采样的方法,其中经典的过采样方法有 SMOTE 等。该类算法的主要特点是依据少数类样本的某些规律生成更多少数类样本,但很多数据集的规律与 SMOTE 生成样本所依据的规律并不相关。按照过采样方法生成的样本会有很大概率生成噪声样本,进而影响分类效果降低多数类的正确率。
13、因此,本文在数据预处理阶段提出了一种新的过采样方法 EMWRS(expectation-maximumweighted resampling)抽样算法,该方法将高斯混合模型与加权采样算法相结合,通过采样算法对数据进行预处理,降低训练数据集的不平衡程度。高斯混合模型是一种概率密度聚类算法,在预测数据分布概率方面有较好的分类效果。该模型会计算出数据点的分布概率,即归属于哪个单模型,对于数据集中这些样本分布概率表明算法对分类结果的把握程度,考虑到数据的统计特征。高斯混合模型考虑了多数类和少数类原始数据的分布概率,以及其相关统计第4期徐红,等:基于非平衡问题的高斯混合模型卷积神经网络659特征和重叠范
14、围。EMWRS 抽样算法在对原始数据的选择上更加注重少数类的分布特征,抽样较高质量的少数类新样本,本采样算法避免了生成大量噪声样本的弊端,使模型分类效果更好。1相关工作1.1数据预处理许多研究成果表明,数据预处理可以有效提高非平衡分类模型的性能。目前数据预处理方法主要是通过改变原始数据分布降低数据类别分布不平衡程度,使用最多的预处理方法是重采样算法,通过对非平衡数据集进行重采样,使得采样后的数据集类别分布平衡。数据预处理阶段的重采样技术主要包括过采样和欠采样。过采样算法的主要目的是得到更多的少数类样本,以此达到数据分布平衡,但这种简单生成新样本的方式,会使生成的新样本具有很大的不确定性,生成的
15、少数类样本质量不高,极易产生过拟合问题,为了解决这一问题,文献 10 提出了一种在少数类邻近线性合成新样本的 SMOTE 方法,弥补了简单生成新样本的不足,可以避免一定的过拟合情况,但该方法合成的新样本有一定重复性,部分样本会变成噪声样本。因此,研究人员在此基础上将 SMOTE 和欠采样方法相结合,对少数类进行 SMOTE 进行过采样,在多数类中进行随机欠采样,该方法会过多地生成新的少数类样本,在一定程度上降低样本噪声的影响。文献 11 提出了 Borderline-SMOTE 算法,用边界上的少数类样本来合成新样本,以此改善样本类别分布不平衡的问题。文献 12 提出了 ADASYN(adap
16、tive synthetic sampling)算法,针对 SMOTE 算法盲目生成样本的缺点进行了改进,利用少数类样本的密度分布来计算少数类样本合成样本的数目,让少数类样本合成更多样本平衡数据分布。为解决数据非平衡问题文献 13 提出了基于样本难聚性为指标对样本加权的采样方法,该方法对数据集中数据依据样本进行加权,在抽样操作中被选中的概率由样本权重决定。1.2卷积神经网络中的非平衡问题卷积神经网络是深度学习中的经典代表算法,在图像、视觉、数据挖掘和自然语言等领域都得到广泛关注14-16,卷积神经网络具有高效快速提取特征的学习能力,所以在数据挖掘领域也被广泛应用,许多研究学者将其应用于非平衡问
17、题。卷积神经网络的特征提取能力很强,并且卷积神经网络模型中的参数量也较小,一个卷积神经网络模型集成了特征提取与分类输出两个主要功能块。经典的神经网络模型由数据输入层、特征提取层卷积层、特征池化层、分类全连接层和结果输出层构成。卷积神经网络将输入数据进行特征提取、降维、归一、分类等操作,输出对数据的处理结果,整个训练学习流程都在一个模型中进行。卷积神经网络模型的训练过程是模型在训练数据集中学习最优模型权重的过程。在训练过程中,网络模型以最小的损失函数为目标函数,在不断的训练中更新网络权重使损失函数达到尽可能的小,在处理非平衡问题时,研究人员提出了很多针对卷积神经网络损失函数的改进方法。较经典方法
18、是代价敏感方法,对少数类和和多数类赋予不同大小的代价,并将类别代价与损失函数结合,该类方法可以有效解决非平衡分类问题。文献 17 提出了线性指数损失的增量代价敏感学习,文献 18 提出了一种焦点损失函数,用于解决红细胞形态分类的非平衡问题,文献 19 还采用重加权方式改进交叉熵损失函数,将对数权重和有效样本权重线性组合为损失函数的权重,并在医学影像中取得了较好的效果。文献 20 还将过采样方法与代价敏感方法相结合,在数据预处理阶段和神经网络的损失函数都做出和改进用以预测破产数据660应用科学学报第41卷非平衡问题。对于非平衡数据分类问题,本文采用的卷积神经网络结构,如图 1 所示。在数据预处理
19、中采用 EMWRS 抽样算法对原始数据进行采样,神经网络对采样之后降低不平衡度的数据集进行分类,卷积神经网络结合 WCELoss 损失函数优化分类模型。从图 1 中的结构来看,卷积神经网络卷积组由 3 个特征提取的卷积层和特征降维的最大池化层对输入数据处理,经过分类层输出分类结果,模型中激活函数采用线性整流函数(rectified linear unit,ReLU),卷积层由 ModuleList 组合而成,并将所需模型参数自动添加到整个网络中。经过卷积神经网络的训练,原始数据损失函数作为衡量模型分类结果和真实标签的差异程度的目标函数,将根据模型对输出的分类结果赋予样本相应的权重损失并反馈给模
20、型,模型依据损失函数进行下一轮训练,以此逐步提高模型对于非平衡数据的分类准确性。?N(batch_size)Conv2d_1(1,128,(2*d),2)Conv2d_1(1,128,(2*d),2)Conv2d_2(1,128,(3*d),2)Conv2d_3(1,128,(4*d),2)?Z(i)MaxPool_1(2*2,2)MaxPool_2(2*2,2)MaxPool_3(2*2,2)图 1 卷积神经网络结构Figure 1 Convolutional neural network structure2高斯混合模型及 EM 算法2.1高斯混合模型高斯混合模型是由多个单个高斯模型组成的
21、混合模型,混合模型能够表示数据的总体分布,并且可以拟合任意形状。高斯混合模型具有较好的数学性质和良好的计算性能,实际中的数据集都较复杂,混合模型能够很好地拟合复杂的数据集。鉴于高斯混合模型的这个优点,本文在数据预处理阶段采用混合模型对数据集进行整体概率分布的拟合。高斯混合模型是表示多个高斯概率密度函数的统计模型,是高斯分布函数的线性组合,表示为p(x|,)=KXk=1kN(x|k,k)(1)式中:N(x|k,k)是高斯混合模型中的第 k 个高斯分布概率密度函数,数据均值为 k,为协方差,N 是数据维度;,是高斯混合模型中的参数;k表示样本 x 从 K 个高斯分布中第4期徐红,等:基于非平衡问题
22、的高斯混合模型卷积神经网络661选取时,第 k 个高斯模型的权重,也称为混合系数,其关系为kXk=1k=1,0 6 k6 1(2)混合高斯模型的本质是融合多个单高斯模型,使得模型更复杂,从而能够拟合更多数据样本。如果在高斯混合模型中,合理设置单个高斯模型的数量和相互权重,就可以拟合任意形状分布的数据。假设 X=x1,x2,xnT是 n 个 N 维独立分布的数据集,Z=z1,z2,znT,zi维样本观测值 xi所对应的隐含变量,即随机取一个样本数据点 xi归属的类别。根据高斯混合模型表达式中的概率密度 N(x|k,k),k=1,2,K,概率分布均值为k,协方差 k可知,对于每一个高斯分布来说,其
23、概率密度分布函数为N(x|k,k)=1(2)N2|k|12exp(x k)T1(x k)2)(3)对于 n 个 N 维独立分布的数据集来说,数据 X 分布服从于 N(RN,RNN),均值为(=(1,2,k),协方差为 =E(x x)(x x)T)且 =1,2,k,得到 X的联合概率密度为p(x|,)=nYj=1(KXk=1kN(xj|k,k)(4)因此对于多元高斯混合模型来说,参数 =,,高斯混合模型加入了隐含变量,通过样本的联合概率最大来估计模型参数,得到最佳的数据分布,可以尽可能地拟合该样本分布。2.2EM算法最大期望(expectation-maximization,EM)算法根据各类模
24、型分布和采样数据可以分别采样数据来源类别,并得到各子模型的参数。EM 算法主要有两个功能:一是对每个数据点计算其归属于哪一个单模型的期望;二是更新模型参数,模型最优化对模型计算新一轮迭代的模型参数。步骤 1对一个 n 个样本的数据集,k 个子分部概率模型,计算数据点的归属概率 p(x|),迭代最优模型参数。对数据点的分布期望计算式为Q(|(old)=EZ(lgp(x,Z|)|x,(old)=KXk=1nXi=1(Zik)lgk+KXk=1nXi=1(Zik)lgN(xi|k)(5)式中:对 的求值就是对模型参数的迭代更新,(old)是高斯混合模型中参数在 EM 算法中上一次的迭代值;(Zik)
25、表示对 xi来说由第 k 个高斯分布生成的概率,也称后验概率,其表达为(Zik)=kN(xi|k,k)KPk=1kN(xi|k,k)(6)662应用科学学报第41卷步骤 2在步骤 1 中采用最大似然方法求解模型参数为(new)k=1nnXi=1(Zik)(7)(new)k=1n(new)knXi=1xi(Zik)(8)(new)k=1n(new)knXi=1(Zik)(xi(new)k)(xi(new)k)T(9)步骤 2求 Q 的极大化,每进行一次迭代,模型参数就进行一次更新,迭代的过程就是参数矫正,最终似然函数达到局部最大,给定迭代停止条件直到算法收敛。EM 算法是高斯混合模型的一种迭代算
26、法,它是根据每个样本点的概率分布对其进行划分,不同于因距离等因素对数据进行类的传统算法,EM 算法是依据它们归属于哪一类进行划分的,这种分类策略更适用于现实中的复杂数据。2.3EMWRS采样算法在数据预处理阶段,高斯混合模型将数据集划分为一些最佳混合簇,每个混合簇的单模型概率分布中的数据可能是不同的。在划分结果中数据可能服从于不同的高斯分布,在每个簇中各类样本的概率分布确定多数类和少数类的重叠情况。根据所得簇内的样本分布结果可以计算相对应样本的权重,本文所用数据集都是二分类非平衡数据集,所以 EMWRS 抽样算法暂未考虑多标签的非平衡数据分类的情况,以二分类不平衡公共数据集 adult 为例,
27、最佳分类簇为 30,统计观察这 30 个簇内样本的分布情况,如表 1 所示。表 1 Adult 在高斯混合模型中的聚类结果Table 1 Clustering results of adult in Gaussian mixture model簇分布簇分布簇分布07310642064182117321642731210226436413642373473146424645641564258266416012664764177327018731964281098220642973由表 1 可以看出,簇 12、16、27、28 中的数据分布极度失衡,在簇内只有一种类别的数据。这样的数据对于模型的分
28、类来说是非常“容易”的,可以把它们理解为软噪声样本,其分类对模型没有起到训练的作用,因此在训练中对它们赋予权重较低,对样本相对不平衡的簇,比如类别比例为 82 的簇,样本权重根据类别比例赋予权重,本文所用的数据集都是二分类的非平衡数据,所以权重赋值非常的重要。第4期徐红,等:基于非平衡问题的高斯混合模型卷积神经网络663利用高斯混合模型求的最佳的聚类簇后,确定每个簇类中各类样本数量的占比 i=ni/mPi=1ni,统计类别的比例,然后确定每个类别采样的权重 i=log0.5i。在非平衡数据集中,类别权重简单互置的作用并不理想,因此依据实验配置权重比例,根据指数的性质,采用log0.5i来计算类
29、别权重,当类别失衡越严重时,其相对应的权重越大,当类别趋于平衡时,类别占比接近 0.5,那么其相对权重为 11,此时类别分布平衡。传统加权采样方法是从 n 个样本集中依据样本权重选择 m 个样本,每个样本被选中的概率由其相对权重决定,样本 i 被选中的概率为pi(k)=wiPsjV Swj(10)传统加权采样算法按照顺序采样样本被选中的概率由样本权重唯一决定,该采样方法会造成采样集的失衡,所以本文采用的抽样为步长式加权采样,保证了采样集的合理性。EMWRS 采样算法是不是顺序采样,而是依据采样步长进行采样,设采样步长之内的所有样本权重之和为 Sw,这里的 Sw为一个连续的随机变量,服从于指数分
30、布,步长的选择是与 Sw总和相对应的随机跳跃,这保证了采样类别的均衡,采样集中设置 k 值阈值 Tw,这里的步长计算公式为 Xw=log(random(0,1)log(Tw),其中 Tw=u1/wii,为期望的类别比例,为 0.5,期望类别平衡。样本抽样采用步长式加权采样方法在一定程度上降低了采样算法的时间复杂度,即表示为 O(n)O(mlg(n/m)。EMWRS 采样算法的流程如下:输入n 个带有样本权重的样本集 V输出样本数量为 m 的采样集 S将总体样本集 V 中的前 m 项插入到 S 中;计算样本集 V 中的每个样本的 k 值 ki=u1/wii,ui为 0,1 内的随机数;重复以下步
31、骤,for i=m+1,m+2,n:将 S 中 k 值最小的作为当前 S 集合的阈值 Tw;假设 r=random(0,1),计算采样步长 Xw=log(r)/log(Tw);假设当前样本为 vd,步长选中的样本为 vi,若满足;wd+wd+1+wi1 0 时,样本的分布函数 FXi()表示为FXi()=pXi6=p(Ui)1/wi6=pUi6 wi=wi(11)其密度函数为 fXi()=wiwi1664应用科学学报第41卷对于每一个 vi成为下一个进入采样集 S 的概率为 p,其计算公式为假设 wd,i1=wd+wd+1+wi1,wd,i=wd+wd+1+wi1+wi,p(vi)=pwd,i
32、1 Xw wd,i=phwd,i1logUlogTw6 wd,ii=p(Tw)wd,i1 U (Tw)wd,i=FU(Tw)wd,i1)FU(Tw)wd,i)=(Tw)wd,i1(Tw)wd,i(12)2.4WCELoss损失函数卷积神经网络的训练与优化过程主要在于最小化损失函数,获得最佳目标函数,使模型性能达到最优。损失函数是描述模型分类结果与真实样本标签差距的函数,常用的二分类损失函数为交叉熵损失函数。但交叉熵损失函数在非平衡分布的数据集中表现并不理想,因此,为解决数据分布不平衡的问题,本文提出了一种结合样本权重的损失函数。在分类模型中应用最多的交叉熵损失函数(cross entropy
33、loss)21,一般通用公式为Lce=1nnXi=1tilgyi(13)式中:ti是数据的真实标签;yi是模型的分类结果;交叉熵损失函数就是这两个值之间的差距。为平衡非平衡数据,样本权重的损失函数对不同类别的样本赋予不同损失权重,在训练集中,xi,yiNi=1,xi表示样本中第 i 个样本,yi表示 xi对应的样本标签,yi 0,1 是样本对应的标签值。在加权采样中添加的权重是依据类别样本在总样本集中所占比例设定的,虽然需要对损失函数添加权重,但添加的权重不宜过大,否则神经网络在训练时会倾向于权重过大的少数类,从而造成模型的过拟合,根据 log(x)对数函数的单调性质可知,自变量 x 的值越大
34、时,函数的走向越趋于平缓,因此采用 log(x)来计算权值,权重计算公式为wk=log1.1(Nk/N)(14)式中,Nk表示的是类别 k 的样本总数;log 函数的自变量是大于 1 的,保证了少数类别的权重不过高导致模型分类失衡。添加了权重的交叉熵损失函数(weighted cross entropy loss)为Lwce=w(1nnXi=1tilgyi)(15)本文的研究为二分类非平衡问题,因此权重取值范围为 w=w1,w2。本文提出的优化损失函数在公共数据集 adult 上的分类效果很好,这也表明本文对损失函数的改进能够解决不平衡数据的分类问题。3实验结果与分析3.1实验数据集本文采用公
35、共数据集 UCI 数据库中的二分类非平衡数据集:adult 数据集,该数据集是第4期徐红,等:基于非平衡问题的高斯混合模型卷积神经网络665类别分布不平衡的数据集,对于数据集的分类结果也都会受大多数类的影响,将少数类分类错误,所以在本文实验中将 adult 不平衡数据集作为模型的验证数据集。3.2评价指标在不平衡数据分类问题中,通常模型会自动忽略少数类别,因而用精确率作为唯一的评价标准,不能较全面地衡量模型的分类性能。所以在保证准确率的前提下,需要格外注意少数类的正确分类,因此召回率这个评价指标就非常重要。研究人员提出了一种对不平衡数据分类非常重要的 G-mean 指标,这个指标值直接体现多数
36、类和少数类的召回率,能够较好地评价分类器的性能。为了更全面地评价模型的性能,本文采用混淆矩阵的三级指标 F1 调和平均值和 G-mean 对模型进行评估。F1 的值可以从整体上反映分类的性能,混淆矩阵如表 2 所示,评测指标的计算公式如式(16)(17)所示。F1=2 Pre RecPre+Rec(16)G-mean=Pre Rec(17)式中:Pre 和 Rec 是混淆矩阵的二级指标,计算公式为 Pre=TPTP+FP,Rre=TPTP+FN。表 2 混淆矩阵Table 2 Confusion matrix左侧预测类右侧真实类预测多数类预测少数类实际多数类TPFP实际少数类FNTN3.3实验
37、过程本文使用的深度学习框架是 PyTorch。将实体嵌入层连接在卷积神经网络输入层之前,后面接 3 个卷积层和池化层来提取学习特征。为避免模型的过拟合,添加了一个 dropout 层,参数为 0.5,对特征进行随机丢弃,后面一个全连接层对卷积组得到的特征图进行分类。该模型采用的是 Adam(Momentum+Adagrad+RMSProp 的结合)优化器,训练集、验证集和测试集的比例是 811,batc_size 设置为 512。EMWRS-WCELoss 算法如下:算法 1数据预处理阶段输入原始数据集 V输出采样之后的数据集 S对输入的原始数据进行聚类,确定最佳聚类簇数 j。依次计算每个聚类
38、簇中的样本分布,根据高斯混合模型所得 k=(k,k),k=s,d,计算均值 s与均方差 s,并确定簇类中少数类的样本权重;对每个分类簇进行统计分析,确定样本权重,并计算采样的数据量;加权采样算法根据样本权重选取数据,并依据 =Ss/Sd统计采样后的数据集分布是否平衡。666应用科学学报第41卷算法 2采用 WCELoss 损失函数训练神经网络输入预处理之后的数据集 S输出分类结果 zi初始化神经网络模型,按照训练 epoch 训练数据集;根据输出结果统计样本分类正确率,依照类别权重分别赋予不同样本损失,将损失函数反馈到模型中,模型依此调整逐步提高分类准确率。3.4实验结果分析EMWRS-WCE
39、Loss 卷积神经网络模型的分类结果,其对比算法主要是基于集成学习算法的数据分类结果。集成学习方法是对结构化数据较常用的方法,在许多数据比赛成果中,获胜方法都会用到集成学习算法。编码方案采用 one-hot 编码,本文通过公共数据集 adult 来验证本文提出的卷积神经网络模型的分类性能。用于对比的模型处理的数据都经历过特征工程,本文的对比模型是 LR+SMOTE、RF+SMOTE、SVM+SMOTE、XGBoost+SMOTE、LR+BorderlineSMOTE、SVM+Borderli-neSMOTE、LR+ADASYN 和 SVM+ADASYN。以上模型都是经典的机器学习分类模型,应用
40、范围较广,其中 XGBoost 模型采用集成学习的思想,这种通过弱分类器组合得到一个更强的分类器的思想,在很多竞赛中都有应用,分类效果较好;为验证本文所提算法能有效提升对神经网络分类性能,本文设置了对卷积网络的对比,在 adult 数据集上,对各采样算法在分类指标 F1 和 G-mean 上 EMWRS-WCELoss 的表现都非常好,其中 CNN+SMOTE,CNN+BorderlineSMOTE,CNN+ADASYN,CNN+EMWRS 是本文采样算法结合卷积神经网络模型。在公共数据 adult 集上,SMOTE、BorderlineSMOTE 和 ADASYN 等算法与本文所提抽样算法的
41、实验结果如表 3 所示。表 3 在公共数据集 adult 上的实验结果Table 3 Experimental results on the public data set adult模型F1G-meanLR+SMOTE0.745 50.745 7RF+SMOTE0.824 00.824 0SVM+SMOTE0.744 60.748 0XGBoost+SMOTE0.832 00.832 0LR+Borderline_SMOTE0.895 40.896 2SVM+Borderline_SMOTE0.896 30.898 0LR+ADASYN0.895 40.896 2SVM+ADASYN0.89
42、6 20.897 8CNN+SMOTE0.888 10.889 3CNN+Borderline_SMOTE0.883 30.883 1CNN+ADASYN0.888 70.892 3CNN+EMWRS0.907 00.907 8第4期徐红,等:基于非平衡问题的高斯混合模型卷积神经网络667由上述实验结果可知,本文算法在 F1 值和 G-mean 值均高于其他对比算法。SMOTE、Borderline_SMOTE 和 ADASYN 算法都是典型的不平衡数据集采样算法,结合支持向量机和 XGBoost 等集成算法,它们在各大赛事的取胜方案中使用频率非常高。由表 3 中实验结果对比可知,本文算法相较
43、于以上算法有较大的提升,对于类别分布不平衡数据集的分类准确性有较高提升。在 F1 指标上本文所提算法相比其他算法至少提升了 1.2%;在 G-mean 指标上,也至少提升了 1.5%。这也表明,相较于 XGBoost 等集成学习算法,卷积神经网络模型效果更佳,因此可以证明卷积神经网络在非平衡问题中的效果。仅对比在卷积神经网络上采样算法的实验结果也可以看出,简单生成少数类的采样方法如 SMOTE 算法会产生一些噪声样本,对分类模型产生负面影响,因而降低模型的分类性能。本文对加权损失函数以及卷积神经网络对非平衡数据的分类效果对比实验,数据集采用adult 公共数据集,在此数据集上的损失函数比较结果
44、如图 2 所示,横坐标为训练 epoch,随着 epoch 的增加,损失函数在逐步降低,在 adult 数据集分类中交叉熵损失函数最小值在 0.3左右,但 WCELoss 损失函数最小值在 0.2 左右,除此之外,本文 WCELoss 损失函数下降的幅度与速度效果都更好,并逐步趋于稳定,因此加权损失函数能够较好降低模型损失,提升模型的分类性能。Cross entropy loss0.70.60.50.40.30.2WCELoss02040Loss60Adult_loss80100图 2 损失函数对比Figure 2 Comparison of loss functions4结语对于非平衡数据集
45、问题,本文提出了EMWRS 算法和WCELoss 损失函数,其中EMWRS算法是基于高斯混合模型和步长采样方法,使采样集内数据达到类别分布平衡。在卷积神经网络分类模型中采用加权损失函数 WCELoss,其依据于数据集中的类别权重为模型的分类效果进行反馈。EMWRS 在公共数据集 adult 上取得了较好的分类效果,同时实验结果也表明卷积神经网络在数据挖掘和分析中效果也较传统机器学习模型更好,结合 EMWRS 抽样算法和样本权重损失函数 WCELoss 的卷积神经网络模型可以极大地提升卷积神经网络模型的分类性能,能够较好地分类不平衡数据集。为更进一步提升模型的各项性能,下一步的研究重点让模型在有
46、限数据集中学习到更多的样本特征,进一步提升模型对不平衡数据的分类性能。参参参考考考文文文献献献:1 Mishra A,Ghorpade C.Credit card fraud detection on the skewed data using various clas-sification and ensemble techniques C/2018 IEEE International Students Conference on Elec-trical,Electronics and Computer Science(SCEECS),2018:1-5.668应用科学学报第41卷2 Wan
47、g L D,Lin Z Q,Wong A.COVID-Net:a tailored deep convolutional neural networkdesign for detection of COVID-19 cases from chest X-ray images J.Scientific Reports,2020,10(1):1-12.3 Ullah I,Raza B,Malik A K,et al.A churn prediction model using random forest:analysisof machine learning techniques for chur
48、n prediction and factor identification in telecom sectorJ.IEEE Access,2019,7:60134-60149.4 Randhawa K,Loo C K,Seera M,et al.Credit card fraud detection using AdaBoost andmajority voting J.IEEE Access,2018,6:14277-14284.5 Baszczyski J,De Almeida Filho A T,Matuszyk A,et al.Auto loan fraud detectionusi
49、ng dominance-based rough set approach versus machine learning methods J.Expert Systemswith Applications,2021,163:113740.6 Guo H X,Li Y J,Shang J,et al.Learning from class-imbalanced data:review of methodsand applications J.Expert Systems with Applications,2017,73:220-239.7 Gong L N,Jiang S J,Jiang L
50、.Tackling class imbalance problem in software defect predictionthrough cluster-based over-sampling with filtering J.IEEE Access,2019,7:145725-145737.8 Zhu Z H,Wang Z,Li D D,et al.Geometric structural ensemble learning for imbalancedproblems J.IEEE Transactions on Cybernetics,2020,50(4):1617-1629.9 N