基于改进Focal_Los...和EDA技术的UT分类算法_王雯慧.pdf

资源描述

1、基金项目:国家自然科学基金(61806221)收稿日期:2021-06-03 修回日期:2021-06-21 第 40 卷第 4 期计算机仿真2023 年 4 月文章编号:1006-9348(2023)04-0346-04基于改进 Focal Loss 和 EDA 技术的 UT 分类算法王雯慧,靳大尉(陆军工程大学指挥控制工程学院,江苏南京 210000)摘要:针对不平衡文本分类问题中少数类样本在分类器上预测精度低的问题,提出了一种基于改进的 Focal Loss 损失函数和 EDA(Easy Data Augmentation)文本增强技术的不平衡文本分类算法。在训练数据层面利

2、用 EDA 文本增强技术对小样本数据进行增强;考虑到样本训练难易程度的动态变化,改进了 Focal Loss 损失函数平衡因子参数的设定方式;接着利用增强后的数据和改进后的损失函数结合较为简单且保留文本语序信息的 DCNN 模型进行分类模型的训练。在搜狗新闻数据集上,控制相同的参数进行对比实验,结果表明 EDA 技术和改进的 Focal loss 损失函数对于不平衡问题都有一定的改善作用,综合应用两种技术的算法获得了最好的表现。关键词:不平衡文本;文本增强;代价敏感;分类算法中图分类号:TP301.6 文献标识码:BUnbalanced Text Classification Algorith

3、m Based onImproved Focal Loss and EDAWANG Wen-hui,JIN Da-wei(Army Engineering University of PLA,Command and Control Engineering College,Nanjing Jiangsu 210000,China)ABSTRACT:Focusing on the problem that the minority class in the unbalanced dataset has low prediction accuracyby traditional text class

4、ifiers,an unbalanced text classification algorithm based on improved Focal loss and EDA wasproposed.Firstly,EDA was used to enhance the small sample data at the level of training data.Secondly,the settingmethod of balance factor parameters of Focal loss function was improved due to the dynamic chang

5、e of the training dif-ficulty.Then the augmented data and the improved loss function were used to train the classification model with theDCNN model which is relatively simple and retains the word order information.On Sogou Labss news data,the sameparameters were controlled to carry out comparative e

6、xperiments.Experimental results show that EDA technology andthe improved Focal Loss both make some improvement on the imbalance problem,and the proposed classification al-gorithm which combines the two has the best performance in the experiment.KEYWORDS:Unbalanced text(UT);Data augmentation;Cost-sen

7、sitiveness;Classification algorithm1 引言分类任务是数据挖掘领域中一个重要的研究任务,普通的分类模型通常是在数据集中各类别的样本数量差距很小且对于每个类别的误分代价相等的假设上训练的,当使用不平衡数据集训练传统的分类器时经常会出现模型对于少数类的预测精度很低的问题,因此如何对不平衡数据进行有效的分类一直是机器学习领域的研究热点1,2。文本分类任务是对文本依据文本的主题内容等进行的分类。在文本分类领域文本数据经常处于不平衡状态,热度较高的解决不平衡分类导致的误分率较高问题的方法包括降采样、过采样、集成学习以及代价敏感函数。Cieslak 等3提出的降采样技术,

8、Chawla 等4提出的经典过采样技术SMOTE(Synthetic M-inority Oversampling Technique),虽然两者在一定程度上缓解了数据集不平衡的问题,但是前者可能会打破样本分布规律,甚至导致重要特征信息的缺失,后者由于生成的小类样本是在原本的小类样本数据连线上,可能会造成样本因密度增加导致模型过拟合。Galarm 等人5利用集成学习技术虽然的到了一个泛化能力更好的分类器,但643该方法对于子分类器的质量过度依赖,无法保证集成效果。代价函数通过给小样本类赋予更高的误分代价使得模型训练更关注小样本,但其的参数确定大多依赖经验,使得损失代价的估计并不能客观设置。本文

9、结合过采样和代价敏感方法的思想,提出了一种基于 EDA6文本增强技术以及改进 Focal Loss 损失函数的不平衡文本分类模型训练算法。该算法利用文本增强技术从数据层面缓解不平衡度,创新自动化的代价敏感函数参数设定方法进行研究,同时避免了过采样样本密度增加导致的过拟合和代价敏感函数参数设定不客观的问题。实验结果表明,本文提出的基于 EDA 文本增强技术以及改进的 FocalLoss 损失函数的不平衡文本分类模型对于不平衡文本的分类有较好的效果提升。2 相关技术简介2.1 EDA 技术依据文本增强的原理不同,文本增强的技术可以分为面向原始文本的增强方法6-10和面向文本表示的增强方法11-13

10、两种。Jason Wei 等人提出了一套简单的用于自然语言处理的通用数据扩充技术 EDA6,并针对其在英文文本上的应用效果进行了研究。在小样本中文文本数据上,假设一个小类样本集为 S=s1,s2,s3,sn,那么小类样本集中某个样本 si可以表示为 si=w1,w2,w3,wn。增强句子数 N 代表进行相应操作的次数,EDA 技术对文本数据样本进行如下操作:以概率 p1对文本中的某个词语 wj进行删除操作,形成新的样本,记为操作 O1;以概率 p2对文本中的某个词语 wj进行替换操作,替换词为其同义词,最终形成新的样本,记为操作 O2;以概率 p3在文本中的某个词语 wj后插入词表中任意非停止

11、词的随机单词 w,最终形成新的样本,记为操作 O3;以概率 p4对文本中的某个词语 wj与其后面的词语wj+1进行位置交换,最终形成新的样本,记为操作 O4;EDA 方法具有“多、快、好、省”的特点,本文引入该技术进行中文文本数据增强。2.2 DCNN 模型Nal Kalchbrenner 等人提出了 DCNN 模型14实现了对任意长度的文本的语义建模。DCNN 模型主要包括 Embedding 层、动态卷积 k-max 池化层和 Concat 层:Embedding 层是完成训练数据的基本语义表示,然后经由三个动态卷积 k-max 采样操作提取不同层次的语义表示。在动态卷积 k-max 采样

12、中,采用补 0 操作确保对输入序列边缘词语语义信息的捕捉;动态 k-max 池化将矩阵向量最大的前 k 个特征进行保留,使得输出中保留更多的高级语义信息。Concat 层则是将这三种不同层次的语义表示进行拼接,最后利用 softmax 函数完成对样本类别的预测。该模型可以针对不同长度的文本进行建模同时保留语序信息,适用于实验需求。此外,从模型的复杂度来说,DCNN 模型较为简单,对算法更敏感,有助于验证算法的优越性。2.3 Focal Loss 损失函数2018 年 Facebook 人工智能实验室提出 Focal Loss 函数15,该函数通过降低不平衡样本中模型简单样本的权重达到提高对困难

13、分类的效果。二分类问题中,常用的交叉熵损失函数设定如下L=-logy,y=1-log(1-y),y=0(1)Focal Loss 对交叉熵损失函数加入因子,将其改进为LFL=(1-y)logy,y=1-ylog(1-y),y=0(2)因子使模型更关注困难分类样本,同时将易分类样本的损失降低。在此基础上,还加入平衡因子,以针对样本本身不平衡性进行调节LFL=-(1-y)logy,y=1-(1-)ylog(1-y),y=0(3)通过调节对大类样本以及易分类样本的损失函数值降低,使得模型在训练过程中更加关注小类样本和困难分类样本。3 基于改进的 Focal Loss 和 EDA 技术的不平衡文本

14、分类算法3.1 改进的 Focal Loss 损失函数如上文所述,Focal Loss 损失函数是在通用交叉熵损失函数的基础上,引入因子和平衡因子,增强模型对于难分类小样本的关注度。然而难分类样本与易分类样本其实是一个动态概念,也就是说会随着训练过程而变化。原先易分类样本即大的样本,可能随着训练过程变化为难训练样本即小的样本。当这种情况发生时,如果参数保持不变可能会造成模型收敛速度慢的问题。针对 Focal loss 无法其支持连续数值的监督的问题,李翔等人提出了 Generalized Focal loss16,但是并未解决平衡因子动态变化的问题。通常情况下平衡因子需要通过繁琐

15、的调参过程确定为一个最优的固定值,这不仅需要消耗大量的算力与时间,还忽略了难易训练样本之间相互转换的动态性。所以本文基于动态的分类模型训练过程,借鉴梯度下降的思想来递归性地逼近最佳的平衡因子,提出平衡因子的动态计算方法如下t=0.25,t=1;t-1+n-nn,t 1.(4)同时必须满足 0t1。其中 t 代表训练轮次,n 为训练中用以测试的小样本数量,n为模型预测结果中小样本数量,为随机变化参数,为(0,1)之内的随机值。743当预测结果中小样本分类数量多于真实小样本数量,则说明模型对小样本数据的倾向度相较于所需的对于小样本的倾向度偏大,此时的变化步长为负值,则会一定程度减小下次训练中的平

16、衡因子,即减小对于小样本数据的关注度。根据何恺明等人实验结果15,初始轮次中的平衡因子设定为 0.25,设定因子值为 2。最终动态 Focal Loss 函数可表示为LFL t=-t(1-y)logy,y=1-(1-t)ylog(1-y),y=0(5)3.2 一种不平衡文本分类算法本文利用 EDA 文本增强技术,在数据层面缓解数据不平衡的基础上,利用上文所述动态 Focal loss 损失函数,结合DCNN 模型,提出一种不平衡文本分类算法用以训练不平衡文本分类器。算法结构如图 1。图 1 一种不平衡文本分类算法结构本文所提出的算法具体步骤如下:算法 1 基于改进 Focal Loss 和

17、 EDA 技术的不平衡文本分类算法输入:训练数据集:小样本数据集 S=s1,s2,s3,sn,大样本数据集 S=s1,s2,s3,sm,T 为迭代次数;输出:不平衡文本分类模型 G,模型损失函数值。1)统计少数类样本数量 n;2)初始化 EDA 技术增强参数:p1=0.1,p2=0.1,p3=0.1,p4=0.1,N=6;3)For i=1 to n:For k=1 to N:对 si依次进行操作 O1(p1),O2(p2),O3(p3),O4(p4);4)将增强后的小样本数据 S=s1,s2,s3,sn(N+1)与大样本数据集 S=s1,s2,s3,sm打乱混合,形成一个数据集 SS=s1

18、,s2,s3,sn(N+1)+m;5)初始化改进的 Focal Loss 函数参数:=2,=0.25;6)初始化模型 G7)For t=1 to T:A)利用分类模型 Gt-1进行预测;B)统计分类器在数据集 SS 上分类的小样本数量n;C)计算现有模型准确率,损失函数 LFL t D)if tT:a)随机产生变化参数;b)计算平衡因子 t=t-1+n(N+1)-nn(N+1);c)if 0t1:更新平衡因子 t;else 回到 a)再次计算;E)更新模型 Gt;8)返回最终文本分类模型 GT,最终损失 LFL T。Jason Wei 等提出 EDA 技术的增强参数 pi=0.1,(i=1,

19、2,3,4)时增强效果最好6,所以算法将这四项参数的值设定为 0.1,但是增强句子数的推荐参数仍不确定,本文首先在修改该参数的情况下执行算法训练模型,在确定轮次为 800 时比较准确性探究最佳的参数值,实验结果证明时 N=6 模型效果最佳。4 实验结果与分析4.1 数据集描述为了衡量本文提出的基于该进的 Focal loss 和 EDA 技术的文本分类算法,利用搜狗实验室提供的全网新闻数据进行不平衡文本数据分类器的训练,探究其准确率提升效果。提取全网新闻数据正文并利用新闻网页链接进行分类标注得到军事类文本 820 篇占比约为 3.8%,非军事类 20583篇包括传媒、互联网、教育等类型。训练集

20、与测试集按照 7:3的比例划分,详见表 1:表 1 基于搜狗新闻数据的不平衡文本分类实验数据训练集测试集总数军事类(小类)574246820非军事类(大类)14408617520583总数149826421214034.2 评价标准为了更好衡量模型效果,本实验关注于小类样本的分类效果。模型预测结果共四种:真阳实例(TP):测试样本数据属于小类,且被模型预测正确;真阴实例(TN):测试样本数据属于大类,且被模型预测正确;假阳实例(FP):测试样本数据属于大类,但被模型预测错误;假阴实例(FN):测试样本数据属于小类,但被模型预测错误。评价指标精准率(Presicion)、召回率(Recall)、

21、调和平均值(F1-Score)定义如下Presicion=TPTP+FP(6)843Recall=TPTP+FN(7)F1=2 Presicion RecallPresicion+Recall(8)为解决不平衡数据分类模型的效果评价问题,除上述指标之外本实验还选取经典的 AUC17值作为实验的评估指标。AUC 值是 ROC 曲线下方所覆盖的面积,ROC 曲线是以假正率 FP/(TN+FP)为横轴,真正率 TP/(TP+FN)为纵轴所绘制的曲线。当 AUC 值越大,证明模型的分类效果越好。4.3 实验设计与结果分析为了验证本文提出的分类模型算法的有效性,进行六组对比实验,第六组即为本文提出的算法

22、。第一组:利用原始数据集(Or)直接结合交叉熵损失函数(CrossEntropy Loss,记为 CL)进行训练,记为 Or+CL;第二组:利用原始数据集直接结合 Focal loss 函数(记为FL)进行训练,记为 Or+FL;第三组:利用原始数据集直接结合改进后的 Focal loss函数(记为 FL)进行训练,记为 Or+FL;第四组:利用 EDA 增强技术增强数据(记为 EDA)后结合交叉熵损失函数进行训练,记为 EDA+CL;第五组:利用 EDA 增强技术增强数据后结合 Focal loss函数进行训练,记为 EDA+FL;第六组:利用 EDA 增强技术增强数据后结合改进后Focal

23、 loss 函数进行训练,记为 EDA+FL。实验分析了六组训练方法的精准率、召回率、调和平均值以及 AUC 值;设定迭代次数为 500,进行多次实验取平均后结果如表 2。表 2 六组实验结果对比表Or+CLOr+FLOr+FLEDA+CLEDA+FLEDA+FLAccuracy0.9650.9670.9720.9950.9960.998Presicion0.9030.9230.9560.9730.9880.997Recall0.5310.7420.8450.8000.8870.904F1-Score0.6690.8220.8970.8780.9350.948AUC0.6910.7370.79

24、40.9060.9380.950Cost0.1531.6540.9100.0120.0530.029 从实验对比结果可以看出,不同的训练方法下模型的准确率和精准率都保持在较高的水平,召回率、调和平均值、AUC 值在采用了 EDA 技术、Focal loss 损失函数以及改进的Focal loss 损失函数之后都有不同程度的提升,说明这些技术方法均能够环节不平衡数据的问题。同时单独各项技术而言,EDA 技术对于模型的提升度最高,是解决不平衡问题较好的一个方法;改进的 Focal loss 较原始的 Focal loss 有一定的改进效果。在六组对比实验中,本文提出的不平衡文本分类模型的训练算法效

25、果最好。5 结语针对传统文本分类算法不能很好的解决不平衡文本类别的问题,本文提出从数据以及敏感函数两个层面解决文本二分类不平衡问题的一种新的算法。六组对比试验结果证明,本文的改进方法是可行的,单独使用各方法进行训练,模型训练结果都有一定的提升效果,但本文所提出的结合算法效果最好。但是该方法仅针对二分类文本数据,存在一定的局限。将该算法与其它不平衡文本分类算法进行实验比较,针对文本多分类不平衡问题的进一步研究,将是未来的重点研究方向。参考文献:1 ZOU Q,XIE S,LIN Z,et al.Finding the best classificationthreshold in imbalan

26、ced classification J.Big Data Research,2016-5:2-8.2 LI Y X,CHAI Y,HU Y Q,et al.Review of imbalanced data clas-sification methodsJ.Control and Decision,2010,34(4):673-688.3 CIESLAK D A,CHAWLA N V,STRIEGELA.Combating imbal-ance in network intrusion datasetsC.Proceedings of IEEE Inter-national Conferen

27、ce on Granular Computing,IEEE,2006:732-737.4 CHAWLA N V,BOWYER K W,HALL L O,et al.SMOTE:Syn-thetic Minority Over-sampling TechniqueJ.Journal of ArtificialIntelligence Research,2002,16(1):321-357.5 Galarm,Fernndeza,Barrenecheae,et al.A review on ensemblesfor the class imbalance problem:Bagging,Boosti

28、ng,and hybrid-based approachesJ.IEEE Transactions on Systems,Man andCybernetics,Part C(Applications and Reviews),2012,42(4):463-484.6 Wei J,Zou K.EDA:Easy Data Augmentation Techniques forBoosting Performance on Text Classification Tasks J.arXiv:1901.11196 cs.CL,2019.7 Zhang X,Zhao J,Lecun Y.Characte

29、r-level ConvolutionalNetworks for Text ClassificationJ.MIT Press,2015.8 Jiao X,Y Yin,Shang L,et al.TinyBERT:Distilling BERT for Nat-ural Language UnderstandingC.Findings of the Association forComputational Linguistics:EMNLP 2020.2020.(下转第 396 页)943问高峰期,与传统集群部署模型相比,运行成本较少,避免了资源浪费。但是,本文方法是建立在网络结构已知的情况

30、下,面对结构未知网络时如何快速有效地实现精准部署,将在今后研究中加以深入探究。参考文献:1 王宝生,张维琦,邓文平.面向大规模容器集群的网络控制技术J.国防科技大学学报,2019,41(1):142-151.2 许道强,邹云峰,邓君华,等.面向 NUMA 架构的虚拟网络功能部署技术研究J.计算机工程与应用,2019,55(21):115-121,157.3 罗凯鑫,吴美平,范颖.基于最大熵方法的鲁棒自适应滤波及其应用J.系统工程与电子技术,2020,42(3):667-673.4 陈卓,冯钢,刘怡静,等.MEC 中基于改进遗传模拟退火算法的虚拟网络功能部署策略J.通信学报,2020,41(4)

31、:70-80.5 徐昌彪,刘杨,刘远祥,等.基于多重指标的 MEC 服务器选择方案J.重庆邮电大学学报(自然科学版),2020,32(3):329-335.6 葛浙奉,王济伟,蒋从锋,等.混部集群资源利用分析J.计算机学报,2020,43(6):1103-1122.7 田永军,何万青,孙相征,等.基于公共云的 HPC 集群实现及自动伸缩闲时计算研究J.计算机工程与科学,2019,41(7):1155-1160.8 丽霞,汪子荧.一种分段集群异常作业预测方法J.大连理工大学学报,2019,59(4):427-433.9 刘晓庆,陆秋君.基于广义最大熵的具有模糊输入输出的回归模型的参数估计J.模糊

32、系统与数学,2020,34(3):34-47.10 宋明顺,杨铭,方兴华.基于最大熵分布的控制图改进与评价研究J.中国管理科学,2019,27(12):208-216.11 晏良,段晓君,刘博文,等.基于 Kullback-Leibler 距离离散度的加权代理模型J.国防科技大学学报,2019,41(3):159-165.12 王刚,于银辉,杨莹.超密集网络中基于集群分配的干扰管理与资源分配J.吉林大学学报(理学版),2021,59(5):1228-1236.13 赵刚,张超,贾宏刚,等.基于模糊理论的主动配电网资源集群控制系统设计J.科学技术与工程,2021,21(13):5374-5379

33、.14 杨晨,郑明辉,谭杰.一种云服务器位置定位及安全性验证方案J.山东大学学报(理学版),2020,55(3):28-34,42.15 胡宇翔,范宏伟,兰巨龙,等.一种支持硬件加速的虚拟网络功能部署模型J.电子与信息学报,2019,41(8):1893-1901.作者简介徐成桂(1983-),女(汉族),四川彭州人,硕士,讲师,研究方向:信息与计算科学。徐广顺(1982-),男(汉族),山东邹城人,硕士,讲师,研究方向:信号与图像处理。(上接第 349 页)9 Xie Q,Dai Z,Hovy E,et al.Unsupervised Data Augmentation forConsist

34、ency TrainingJ.ResearchGate,2019.10 Kumar V,Choudhary A,Cho E.Data Augmentation using Pre-trained Transformer Models.2020.11 Guo H,Mao Y,Zhang R.Augmenting Data with Mixup forSentenceClassification:AnEmpiricalStudy J.ResearchGate,2019.12 Malandrakis N,Shen M,Goyal A,et al.Controlled Text Genera-tion

35、 for Data Augmentation in Intelligent Artificial AgentsJ.arXiv preprint arXiv:1910.03487,2019.13 Kalchbrenner N,Grefenstette E,Blunsom P.A ConvolutionalNeural Network for Modelling Sentences J.Eprint Arxiv,2014,1.14 Lin T Y,Goyal P,Girshick R,et al.Focal Loss for Dense ObjectDetectionC.IEEE Transact

36、ions on Pattern Analysis&MachineIntelligence.IEEE,2017:2999-3007.15 Li X,Wang W,Hu X,et al.Generalized Focal Loss:LearningReliableLocalizationQualityEstimationforDenseObjectDetectionJ.2020.16 Li X,Wang W,Hu X,et al.Generalized Focal Loss V2:Learn-ing Reliable Localization Quality Estimation for Dense Object De-tectionJ.ResearchGate,2020.17ZHANG N,CHEN Q.Ensemble learning training method basedon AUC and Q statisticsJ.Journal of Computer Applications,2019,39(4):935-939.作者简介王雯慧(1999-),女(汉族),浙江苍南人,本科大四在读,主要研究领域为自然语言处理、数据挖掘。靳大尉(1979-),男(汉族),河北保定人,副教授,主要研究领域为数据与知识工程。693

展开阅读全文