一种基于内容和ERNIE3.0-CapsNet的中文垃圾邮件识别方法.pdf

资源描述

1、学术论文DOl:10.12379/j.issn.2096-1057.2024.03.06ResearchPapers一种基于内容和ERNIE3.0-CapsNet 的中文垃圾邮件识别方法单晨棱张新有2 开邢焕来2冯力1（西南交通大学唐山研究院河北唐山063000)（西南交通大学计算机与人工智能学院成都611756)()A Chinese Spam Detection Method Based on Content and ERNIE3.0-CapsNetShan Chenling,Zhang Xinyoul:2,Xing Huanlail.?,and Feng Li?1(Tangshan Gr

2、aduate School,Southwest Jiaotong University,Tangshan,Hebei 063000)2(School of Com puting and Artificial Intelligence,Southwest Jiaotong University,Chengdu 611756)Abstract In order to solve the problems of inadequate word vector representation and limitedfeature extraction richness in the current Chi

3、nese spam recognition methods based on deep learning,thispaper proposes an improved recognition model by integrating the ERNIE3.0 pre-training modelwith the capsule neural network,referred to as ERNIE3.0-CapsNet.For the Chinese spam contenttext,we leverage ERNIE3.0 to generate a word vector matrix w

4、ith outstanding memory andreasoning capabilities,along with rich semantics.Subsequently,we employ the capsule neuralnetwork for feature extraction and classification.For the capsule neural network,we enhance itsstructure,adopting GELU as the activation function of its dynamic routing,and conduct aco

5、mparative experiment between five groups of similar models and four groups of activationfunctions.On the open source TRECo6C Chinese email dataset,the proposed ERNIE3.0-CapsNetmodel exhibits remarkable overall performance,achieving an accuracy rate of 99.45%.Theexperimental results demonstrate the s

6、uperiority of ERNIE3.0-CapsNet over methods such asERNIE3.0-TextCNN,ERNIE3.0-RNN confirming the models effectiveness and superiority inChinese spam recognition.Key words Chinese spam;ERNIE3.O;capsule neural network;activation function;text classification摘要针对目前中文垃圾邮件识别方法中的深度学习检测方法词向量表示不足和特征提取丰富度欠缺的问题

7、，提出融合ERNIE3.0预训练模型的胶囊神经网络改进识别模型一CapsNet.对于中文垃圾邮件内容文本，利用ERNIE3.0生成对于知识具备优异记忆和推理能力且语义丰富的词向量矩阵，再使用胶囊神经网络进行特征提取及分类，对于胶囊神经网络，改进了结构并收稿日期：2 0 2 3-0 7-0 3基金项目：国家自然科学基金项目（6 2 17 2 342）通信作者：张新有（)引用格式：单晨棱，张新有，邢焕来，等。一种基于内容和ERNIE3.0-CapsNet的中文垃圾邮件识别方法JI.信息安全研究，2 0 2 4，10(3):233-240网址http:/ 1 233ERNIE3.0-信息安全研究第1

8、0 卷第3期2 0 2 4年3月Journalot Informatien Security ResearchVol.10No.3Mar.2024使用GELU作为其动态路由的激活函数，设计了5组同类模型和4组激活函数的对比实验.在开源的TRECO6C中文邮件数据集上，提出的ERNIE3.0-CapsNet模型效果在总体上表现突出，其准确率达到99.45%.实验结果表明，ERNIE3.0-CapsNet优于ERNIE3.0-TextCNN,ERNIE3.0-RNN等方法，证明了该模型在中文垃圾邮件识别效果的有效性和优异性。关键词中文垃圾邮件；ERNIE3.0；胶囊神经网络；激活函数；文本分类中图

9、法分类号T309随着互联网的高速发展，人们的通信越来越方便，特别是手机短信、微信、电子邮件等得到广泛普及.其中，电子邮件因其可以在云端服务器持久性存储的特性，人们更愿意通过电子邮件来传递重要文件或重要信息.但随之而来的就是邮件中混杂的垃圾电子邮件带来的网络安全问题及其造成的经济损失问题.2 0 16 年6 月至2 0 2 1年12 月期间美国联邦调查局IC3向金融机构提交的文件统计数据显示，因BEC/EAC（商业电子邮件泄露/电子邮件账户泄露骗局而在全球所产生的个人和企业损失高达433亿美元11.此前，信息安全厂商卡巴斯基实验室发布的一份统计报告也提到，2 0 2 1年源于中国的垃圾邮件在全球

10、占比达到8.7 3%，比2 0 2 0 年提升2.52 个百分点，居全球第四2 1.因此，如何更准确检测中文垃圾邮件对当前维护网络安全和避免相关经济损失具有重要意义.目前，对垃圾邮件进行检测的主要方式之一就是基于内容识别.基于内容的垃圾邮件识别方式实质也是对邮件内容文本进行二分类的研究问题.但目前文本分类的优异算法模型正快速迭代，而针对垃圾邮件识别应用领域的优异文本分类的算法应用研究相对欠缺.本文提出了将ERNIE3.0与改进CapsNet相结合的ERNIE3.0-CapsNet文本分类模型，对现有垃圾邮件识别算法词向量表示不足和特征提取丰富度不够有所弥补.ERNIE3.0相对其他主流预训练模

11、型有增强文本信息的知识记忆和推理能力的优势，其最大化丰富了文本表示特征，而CapsNet对保留信息的混合特征和形变特征更有优势31.最后通过对比实验证实本文方法在垃圾邮件识别中具有更加显著的效果。1相关研究垃圾邮件一直是全球性的网络安全痛点，国2341内外对此都非常关注，对垃圾邮件的识别方法也在不断更新与改进.早期，传统机器学习算法常被青用于垃圾邮件检测.但深度学习因其可以避免繁杂的人工特征工程和可以从文本中学习到更好的语义特征等显著优点，渐渐有取代传统机器学习算法在垃圾邮件识别地位的趋势.Sheneamer41比较了深度学习模型和传统机器模型在垃圾邮件中的检测性能，在与5种机器学习方法进行对

12、比实验后得出，LSTM,GloVe-CNN等深度学习模型性能表现更佳.Siddique等人5利用朴素贝叶斯、CNN、SV M和LSTM来检测和分类乌尔都语电子邮件内容，研究结果表明LSTM更优于其他模型，在文本分类的任务研究中6-8，使用神经网络进行分类任务之前，常会借助文本表示模型将文本转换为语义词向量，以消除人工特征工程的复杂性，达到直接对原始文本数据进行端到端分析的目的.于是,Word2Vec-LSTM9,ALBERT-RNN10等词向量表示模型结合神经网络分类模型的方式也相继被提出，并在垃圾邮件识别领域的效果表现出优于传统机器学习甚至一些神经网络模型的检测方法.上述很多研究是针对英文等

13、语言的垃圾邮件检测的探索，在中文垃圾邮件检测领域，目前研究还相对较少，其中文献10 是针对中文垃圾邮件的研究，提出融合ALBERT动态词向量的RNN网络模型，提升了文本表示中对词语多义理解的程度，在TREC06C中文垃圾邮件数据集子集的准确率达到99.13%.Tong等人11提出多通道结合长短注意力机制的胶囊网络模型，提取更多复杂特征,增强关键特征的影响力，表现出优于TextCNN，LSTM及BERT方法的效果，且进一步提升了在TREC06C平衡子集的准确率（99.30%).但这些方法对于文本表示的丰富度和特征提取的力度还有学术论文.ResearchPapers进一步提升的空间.针对上述问题，

14、本文提出了ERNIE3.0-CapsNet文本分类模型.主要贡献点如下：1）预训练语言模型ERNIE3.0将自回归网络和自动编码网络进行结合，并预先训练了具有百亿参数的大规模知识增强模型12.本文利用其对邮件进行文本表示，使邮件文本与世界知识关联，能达到更优异的底层语义语法表示的效果。2）本文对胶囊网络的结构作了优化，增强了底层特征提取，同时对胶囊网络动态路由算法中的激活函数进行了研究，发现一种更适合垃圾邮件识别的激活函数，提升了模型的整体性能.3）本文提出的ERNIE3.0-CapsNet文本分类模型在TREC06C中文邮件数据集表现出色，其表现效果总体优于ERNIE3.0-TextCNN,

15、ERN-IE3.0-RNN等模型.2ERNIE3.0-CapsNet模型2.1文本表示：ERNIE3.0近年来，大规模的预训练语言模型研究成为趋势,其中 ERNIE(enhanced representation throughknowledge integration)系列的预训练模型表现尤为突出.2 0 19年,ERNIE1.0改进于BERT131,其直接对先验语义知识单元进行建模，使模型语义表示能力进一步提升，其在中文任务上全面超过了BERT中文模型.同年，基于持续学习的语义理解预训练框架ERNIE2.0很快被提出，它使用多任务学习增量式构建预训练任务，在中英文任务上都超越了BERT.到

16、2 0 2 1年，ERNIE3.0出现，相比其他预训练模型，其主要优点是可以从大规模知识图谱中汲取世界知识，其英文版本在Su-perGLUE14)基准（2 0 2 1年7 月3日）测试取得冠军,进一步提高了预训练语言模型的性能.其模型框架如图1所示。因此，由于ERNIE3.0的出色优势，本文利用开源的轻量级ERNIE3.0预训练语言模型来生成中文邮件文本的词向量.利用其将邮件文本向量化的具体过程如图2 所示。ERNIE3.0与Transformer类预训练模型数据处理步骤类似，先是将原始输人的批量邮件文本进行词级编码，也就是切分Token，同时拼接上预训练模型对应的特殊Token,如CLS,S

17、EP,再将Token映射为 ERNIE3.0 对应的分词编码（Tokenids），每个Token id还有分句编码（Segment ids)，来表示对应的Token是属于文本第几个句子.分词编码及分句编码的同时，还将进行补齐与截断(Padding),形成文本长度一致的编码序列，然后将编码序列输入ERNIE3.0预训练语言模型，经过ERNIE3.0对词向量的学习后，最终生成具有先验知识和世界知识的特征向量 sequence_output和 pooled_output.其中,sequence_output 是对应每个输入Token的语义特征表示，pooled_output是对应整个句子或整个文本的

18、语义特征表示.零样本学习微调小样本学习TransformerBlock n自然语言理解网络TransformerBlocknTransformerBlockk+1自然语言生成网络TransformerBlockk+1TransformerBlockk通用语义表示一TransformerBlock 1持续学习Embedding大规模文本数据图1ERNIE3.0模型框架大规模知识图谱网址http:/1235信息安全研究第10 卷第3期2 0 2 4年3月JournalofInformation Security BesearchVol.10No.3Mar.2024pooled_outputCseq

19、uence_outputTiokTokTsEPTiokTiokTiokERNIR3.0预训练模型TokenCLSididsSegmentidsTokid00Tokid0SEPid0Tokid1Tokid1Tokid1ERNIR3.0 Tokenizer and Padding中文邮件文本图2 ERNIE3.0词向量生成由于 sequence_out相比pooled_output更关注序列特征，对原始文本信息表示更完整且丰富，本文最终选择sequence_out作为邮件文本表示的特征向量.2.2CapsNet优化模型胶囊网络模型（CapsNet)最早由Sabour等人C15提出，其目的是为了解决

20、CNN在图像处理中由于池化无法保留原始信息的空间关系等问题,其在MNIST上表现出当时最好的分类效果.在自然语言处理领域，CapsNet同样大放异彩.Zhao等人16 1首次提出胶囊网络的文本分类模型CapsNet-A和CapsNet-B,后者模型在多标签文本分类任务中表现出比CNN和LSTM更好的效果.本文得益于CapsNet-B和文献11的灵感，在原始胶囊网络的基础上作了微调和优化.优化后的胶囊网络模型如图3所示：动态路由数字胶囊层向量模长文本向量卷积层主胶囊层图3胶囊网络优化模型本文对CapsNet的优化主要体现在2 个方面：1)结构上的优化。为了获取丰富的底层特征，本文在胶囊网络的卷积

21、层对文本的矩阵向量进行3种不同卷积核大小的n-gram特征提取处理，然后在主胶囊层将所有特征堆叠输人到数字胶囊层，这使得动态路236由更新后的高级特征更加饱满。同时为了更好的邮件文本分类效果，各个层级的相关超参数通过实验进行了微调。2）动态路由激活函数的替换。在原始胶囊网络动态路由15过程中，每次送代都会利用Squash激活函数将更新过程的过渡学术论文ResearchPapers向量s，压缩到0 1之间，压缩过程保留了向量方向，以此得到高级向量Vj.其原理如式(1)所示：v,=Squash(s,)=1+1s,T Ts,T本文用GELU激活函数17 替换了Squash激活函数，相比Squash激

22、活函数，变换激活函数后的动态路由有效地提升了胶囊网络模型的性能.替换为GELU激活函数后V；更新过程如式(2)所示：V;=GELU(s,)=s,P(XResearchPapers活函数在各项指标上的效果与之相差无几,而ELU激活函数和GELU激活函数在准确率、F1值这2项指标上均有提升，值得注意的是，GELU激活函数效果更为明显，同时GELU在精确率上的效果也最好，虽然结合表3可以看出，ELU激活函准确率ERNIE3.0-CapsNet(Squash)99.20ERNIE3.0-CapsNet(ReLU)99.20ERNIE3.0-CapsNet(ELU)99.25ERNIE3.0-CapsN

23、et(GELU)99.454结语本文提出了一种新的文本分类模型，即ERN-IE3.0与优化的CapsNet相结合的ERNIE3.0-CapsNet文本分类模型.并采用该模型进行垃圾邮件识别.其在TRECO6C中文邮件数据集的平衡子集上，准确率达到9 9.45%.相比采用ERNIE3.0-TextCNN,ERNIE3.0-RNN等模型的垃圾邮件检测方法，ERNIE3.0-CapsNet具有显著优势.同时，激活函数GELU替换原动态路由Squash激活函数的改进，进一步提升了模型的整体性能.最后实验结果证明了ERNIE3.0-CapsNet模型在垃圾邮件识别任务上的有效性和优越性。但ERNIE3.

24、0-CapsNet参数较多，致使计算代价较大，后续将考虑压缩模型参数.同时，由于本文的任务特性，致使数据集较为单一，未来将引人新的数据集或应用于其他领域，进一步对ERNIE3.0-CapsNet模型进行性能探索和研究.参考文献1 Federal Bureau of Investigation.Business email compromise:The MYM43 billion scam EB/O L.2 0 2 2-0 5-0 4.https:/www.ic3.gov/Media/Y2022/PSA2205042 Kulikova T,Shcherbakova T.Spam and phis

25、hing in 2021EB/OL.2022-02-09.https:/ 0 18，2（12）：6 8-7 6数的替换在召回率指标上与ERNIE3.0-TextCNN持平，且其余3项指标皆优于表3前4组对比实验，但从总体上评估，用GELU激活函数替换Squash激活函数，能使ERNIE3.0-CapsNet 模型性能更为突出。表4激活函数对比实验结果模型精确率98.9198.9198.8199.504 Sheneamer A.Comparison of deep and traditional learningmethods for email spam filtering JJ.Intern

26、ational Journalof Advanced Computer Science and Applications,2021,12(1):560-5655 Siddique Z B,Khan M A,Din I U.Machine learning-baseddetection of spam emails JJ.Scientific Programming,2021,2021:1-56窦宇宸，胡勇.基于BERT的安全事件命名实体识别研究J门.信息安全研究，2 0 2 1，7(3）：2 42-2 497Gao W,Huang H.A gating context-aware text c

27、lassificationmodel with BERT and graph convolutional networks J.Journal of Intelligent and Fuzzy Systems,2021,40(3):4331-43438Wang S,Zhang M.Text Classification based on ALBERTand mutil-head attention capsule network J.LectureNotes on Data Engineering and CommunicationsTechnologies,2022,89:439-4489

28、Hans R.LSTM based short message service(SMS)modeling for spam classification C/OL.2019 2023-07-03.http:/dx.doi.org/10.1145/3231884.323189510周枝凝，王斌君，翟一鸣，等.基于ALBERT动态词向量的垃圾邮件过滤模型J.信息网络安全，2 0 2 0，2 0（9）：107-11111Tong X,Wang J,Zhang C,et al.A content-based Chinesespam detection method using a capsule ne

29、twork with long-short attention JJ.IEEE Sensors Journal,2021,21(22):25409-2542012Sun Y,Wang S,Feng S,et al.Ernie 3.O:Large-scaleknowledge enhanced pre-training for language understandingand generation J.arXiv preprint,arXiv:2107.02137,202113Devlin J,Chang M,Lee K,et al.Bert:Pre-training ofdeep bidir

30、ectional transformers for language understandingJJ.arXiv preprint,arXiv:1810.04805,2018网址http:/1239%召回率F1值99.5099.2099.5099.2099.7099.2599.4099.40信息安全研究第10 卷第3期2 0 2 4年3月Journalotlnformation Security ResearchVol.10No.3Mar.202414 Wang A,Pruksachatkun Y,Nangia N,et al.SuperGLUE:Astickier benchmark for

31、 general-purpose language understandingsystems JJ.arXiv preprint,arXiv:1905.00537,201915Sabour S,Frosst N,Hinton G E.Dynamic routingbetween capsules JJ.arXiv preprint,arXiv:1710.09829,201716 Zhao W,Ye J,Yang M,et al.Investigating capsulenetworks with dynamic routing for text classification J.arXiv preprint，a r Xi v:18 0 4.0 0 538,2 0 1817Hendrycks D,Gimpel K.Gaussian error linear units(GELUs)JJ.arXiv preprint,arXiv:1606.08415,2016单晨棱硕士研究生.主要研究方向为自然语言处理、网络安全。张新有博士，副教授.主要研究方向为分布式计算与应用、网络安全。邢焕来博士，副教授.主要研究方向为人工智能、网络安全，冯力博士，教授.主要研究方向为人工智能、网络安全。240

展开阅读全文