收藏 分销(赏)

融合注意力和裁剪机制的通用文本分类模型.pdf

上传人:自信****多点 文档编号:721100 上传时间:2024-02-22 格式:PDF 页数:10 大小:1.64MB
下载 相关 举报
融合注意力和裁剪机制的通用文本分类模型.pdf_第1页
第1页 / 共10页
融合注意力和裁剪机制的通用文本分类模型.pdf_第2页
第2页 / 共10页
融合注意力和裁剪机制的通用文本分类模型.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2396-2405ISSN 10019081CODEN JYIIDUhttp:/融合注意力和裁剪机制的通用文本分类模型崔雨萌,王靖亚*,刘晓文,闫尚义,陶知众(中国人民公安大学 信息网络安全学院,北京 100038)(通信作者电子邮箱)摘要:针对当前分类模型通常仅对一种长度文本有效,而在实际场景中长短文本大量混合存在的问题,提出了一种基于混合神经网络的通用型长短文本分类模型(GLSTCM-HNN)。首先,利用 BERT(Bidirectional Encoder Represe

2、ntations from Transformers)对文本进行动态编码;然后,使用卷积操作提取局部语义信息,并构建双通道注意力机制(DCATT)对关键文本区域增强;同时,使用循环神经网络(RNN)捕获全局语义信息,并建立长文本裁剪机制(LTCM)来筛选重要文本;最后,将提取到的局部和全局特征进行融合降维,并输入到Softmax函数里以得到类别输出。在4个公开数据集上的对比实验中,与基线模型(BERT-TextCNN)和性能最优的对比模型(BERT)相比,GLSTCM-HNN的F1分数至多分别提升了3.87和5.86个百分点;在混合文本上的两组通用性实验中,GLSTCM-HNN的F1分数较已有

3、研究提出的通用型模型基于Attention的改进CNN-BiLSTM/BiGRU混联文本分类模型(CBLGA)分别提升了6.63和37.22个百分点。实验结果表明,所提模型能够有效提高文本分类任务的准确性,并具有在与训练数据长度不同的文本上以及在长短混合文本上分类的通用性。关键词:深度学习;文本分类;注意力机制;裁剪机制;通用型模型中图分类号:TP391.1 文献标志码:AGeneral text classification model combining attention and cropping mechanismCUI Yumeng,WANG Jingya*,LIU Xiaowen,

4、YAN Shangyi,TAO Zhizhong(School of Information and Cyber Security,People s Public Security University of China,Beijing 100038,China)Abstract:Focused on the issue that current classification models are generally effective on texts of one length,and a large number of long and short texts occur in actu

5、al scenes in a mixed way,a General Long and Short Text Classification Model based on Hybrid Neural Network(GLSTCM-HNN)was proposed.Firstly,BERT(Bidirectional Encoder Representations from Transformers)was applied to encode texts dynamically.Then,convolution operations were used to extract local seman

6、tic information,and a Dual Channel ATTention mechanism(DCATT)was built to enhance key text regions.Meanwhile,Recurrent Neural Network(RNN)was utilized to capture global semantic information,and a Long Text Cropping Mechanism(LTCM)was established to filter critical texts.Finally,the extracted local a

7、nd global features were fused and input into Softmax function to obtain the output category.In comparison experiments on four public datasets,compared with the baseline model(BERT-TextCNN)and the best performing comparison model BERT,GLSTCM-HNN has the F1 scores increased by up to 3.87 and 5.86 perc

8、entage points respectively.In two generality experiments on mixed texts,compared with the generality model CNN-BiLSTM/BiGRU hybrid text classification model based on Attention(CBLGA)proposed by existing research,GLSTCM-HNN has the F1 scores increased by 6.63 and 37.22 percentage points respectively.

9、Experimental results show that the proposed model can improve the accuracy of text classification task effectively,and has generality of classification on texts with different lengths from training data and on long and short mixed texts.Key words:deep learning;text classification;attention mechanism

10、;cropping mechanism;general model0 引言 在自然语言处理领域,文本分类是一项受到广泛关注的重要任务1,已在垃圾邮件过滤2、推荐系统3、情感分析4-5、网络舆情监测6-8、新闻分类9等领域取得了大量的应用。文本分类算法主要可分为4种:基于规则的算法、传统机器学习算法、深度学习算法以及混合分类算法。基于规则的算法主要是依赖关键词分类,方法简单,但人工开销大、维护成本高并且扩展性差,逐步被机器学习算法所取代。传统机器学习算法一直占据着文本分类任务中的主要地位,包括朴素贝叶斯算法(Nave Bayes,NB)10、K 近邻法(K-Nearest Neighbor,KN

11、N)11和支持向量机(Support Vector 文章编号:1001-9081(2023)08-2396-10DOI:10.11772/j.issn.1001-9081.2022071071收稿日期:20220723;修回日期:20220924;录用日期:20220928。基金项目:国家社会科学基金资助项目(20AZD114)。作者简介:崔雨萌(1998),男,吉林长春人,硕士研究生,CCF会员,主要研究方向:命名实体识别、文本分类;王靖亚(1966),女,陕西西安人,教授,硕士,CCF会员,主要研究方向:自然语言处理、对抗样本;刘晓文(1997),男,山东东平人,硕士研究生,主要研究方向:

12、数字图像处理、神经网络;闫尚义(1998),男,河北保定人,硕士研究生,主要研究方向:自然语言处理、文本分类;陶知众(1997),男,山东临沂人,硕士研究生,主要研究方向:深度学习、图像风格转换。第 8 期崔雨萌等:融合注意力和裁剪机制的通用文本分类模型Machine,SVM)12等算法。Liu等13采用基于Spark的朴素贝叶斯分类并行化算法,在加速比和扩展性等方面更好地满足了大规模中文文本分类任务。Khamar14使用基于距离函数的KNN算法对短文本分类,相较于NB和SVM等算法分类效果更好。但传统机器学习算法对深层次语义特征提取效果不好、泛化能力差,且需要依赖大量的数据分析和特征工程工作

13、,难以大规模推广应用。目前,文本分类的主流方法采用深度机器学习技术,如基于卷积神经网络(Convolutional Neural Network,CNN)15和循环神经网络(Recurrent Neural Network,RNN)16等。CNN 首先应用于计算机视觉领域,2004年Kim15将CNN用于文本分类领域。之后,很多研究都基于卷积思想对文本分类模型进行改进,包括深层卷积神经网络(Very Deep Convolutional Neural Network,VDCNN)17、textSE-ResNeXt 集成模型18、孪生 卷 积 神 经 网 络(Monomeric-Siamese

14、Convolutional Neural Network,MSCNN)19、动态卷积神经网络20等。虽然CNN结构简单,能快速提取文本的局部关键特征,计算代价较小;但受限于窗口大小,无法提取文本中的全局语义信息。RNN的序列结构更适用于处理长距离的上下文依赖关系,它的改进结构主要包括长短期记忆(Long Short-Term Memory,LSTM)网络21、门控循环单元(Gated Recurrent Unit,GRU)22、双向长短期记忆(Bidirectional Long Short-Term Memory,BiLSTM)网络23和 双 向 门 控 循 环 单 元(Bidirectio

15、nal Gated Recurrent Unit,BiGRU)。Xu 等24提出一种 BiLSTM 捕捉文本语义信息,高效实现评论的情感分析,但BiLSTM模型结构复杂,参数过多且训练时间较长,因此王伟等25提出了结合BiGRU和注意力机制的情感分类模型,在IMDB影评数据集上准确率达到了90.54%。虽然RNN可以解决CNN无法有效提取文本上下文依赖的问题,但存在梯度消失和爆炸的问题。另外,当文本后面的词比前面的词更有影响时,RNN可能会产生偏差,CNN通过引入最大池化层确定判别短语,克服这种偏差,但池化操作会导致信息的丢失26。因此,为了解决二者的局限性,很多研究将两种神经网络进行结合、相

16、互补充。Lai 等27提出了循环卷积神经网络(Recurrent Convolutional Neural Network,RCNN),使用 RNN取代TextCNN中的卷积层以获取文本的语义语法信息,然后使用最大池化筛选重要特征;但RCNN模型的最大池化会丢失大量信息,忽略其他有贡献的特征。文献 28 中使用CNN提取特征,然后利用LSTM进一步筛选更新,分类准确率达到99.60%。Luo29为提高网络舆情分析的性能,使用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)构建文本向量表示,然后使用GRU-CNN加强文本之间的关联性,实现高精度的文本分类。相较于

17、单向的循环神经网络,双向循环神经网络可以更好地捕捉双向的语义依赖。文献 1 中提出了一种统一体系结构 AC-BiLSTM(BiLSTM with Attention mechanism and Convolutional layer),使用卷积层提取短语表示,BiLSTM提取文本的上下文信息,最后用注意力机制对提取的信息赋予不同的权重。Lu等30提出一种基于多元神经网络融合的分类模型,结合CNN、BiGRU和注意力机制提取不同层次、不同特征的文本特征,准确率达到了86.80%。另外,在自然语言处理任务中,根据长度将文本分为长文本和短文本。现阶段的大部分分类模型都仅针对长文本或短文本的一种进行设

18、计,往往只能适用于一种长度文本,且在一种长度文本上训练得到的模型,难以迁移到另一种长度文本的分类任务上。但在实际场景中,文本长度不统一,比如用户留言、产品评价、自媒体发言等都包含着大量混合存在的长短文本,导致了分类模型在实际应用中缺乏通用性和兼容性。文献 31 中构建了一种集成学习模型,采用数据重采样技术预处理数据,并通过集成选择策略从基分类器中选取TopK个核心分类器,以在长短文本混合场景下实现稳定分类。但集成学习模型的时间和空间开销较大,模型性能的提升受到硬件水平的限制,且文献 31 并未研究单个分类模型应对混合文本分类任务时的通用性。然而,使用单一类别的分类模型很难满足长短混合文本分类任

19、务的需求,因此亟须一个能同时满足长短文本分类任务的通用性模型。为解决当前模型存在的问题,提高文本分类的准确率和通用性,本文提出一种基于混合神经网络的通用型长短文本分 类 模 型(General Long and Short Text Classification Model Based on Hybrid Neural Network,GLSTCM-HNN)。本文主要工作如下:1)提出了一种基于混合神经网络的通用型长短文本分类模型。该模型采用BERT(Bidirectional Encoder Representations from Transformers)预训练语言模型对文本动态编码,融

20、合卷积和循环神经网络同时提取文本局部和全局语义特征。结合两种网络的不同特点,减少模型受文本长度变化的影响,提高对不同长度文本的理解和分类能力,保证模型的通用性。2)设 计 了 一 种 双 通 道 注 意 力 机 制(Dual Channel ATTention mechanism,DCATT)。该机制可以从卷积和循环两个通道上对文本中的关键区域有效识别,并相应地对关键区域进行增强,提高模型对文本潜在特征的挖掘能力。3)为了去除长文本中的无效干扰信息,并保证模型在长短文本分类上的通用性,设计了一种基于关键区域截取的长文本裁剪机制(Long Text Cropping Mechanism,LTCM

21、)。该机制在双通道注意力向量的引导下能够实现长文本中有效信息的截取,去除冗余干扰信息,提高准确率的同时确保模型的通用性。1 相关工作 1.1词向量表示对文本构造合适的词向量表示,是基于深度学习的文本分类模型的基础。传统的one-hot编码方式简单,但是产生的向量维度高且稀疏,没有考虑词语的上下文语义和顺序,无法表示词之间的关系。Mikolov 等32提出的基于分布表示的Word2Vec是词嵌入应用的典型,主要包括CBOW(Continuous Bag of Words)和Skip-gram两种方法,但它只考虑到窗口内部词 的 局 部 联 系。Pennington 等33提 出 的 GloVe(

22、Global Vectors)分布式模型采用共现矩阵来综合考虑文本的局部和整体信息,但GloVe和Word2Vec无法解决一词多义和词的多层特征问题。因此,ELMo(Embeddings from Language Models)动态词向量被提出,采用双向语言模型来预训练出词向量,从而表示同一单词在不同上下文中的不同含义34。ELMo采用BiLSTM建模,但与注意力模型相比训练速度较慢,且特征选择和融合较弱。2018年BERT预训练语言模型35被提出,通过海量语料的训练可以通过微调为各种任务提供高级模型。在中文文本分类中,BERT可以针对特定任务动态优化词向量,出色地提取词语之间的上下文关系,

23、因此在各种文本分类问题中被广为采纳36-39。经过大规模语料的预训练后,BERT模型具有出色的特征提取能力,并且在不同任务中可以对词向量进行动2397第 43 卷计算机应用态优化,因此使用它作为本模型的嵌入层,将每个文字输入编码为768维的词向量。1.2TextCNNTextCNN15主要由卷积层、池化层和全连接层构成,它的核心思想是使用不同尺寸的卷积核获取文本相邻的N-gram特征表示。在卷积层使用多种尺寸的卷积核来提取文本的局部特征,并将得到的特征向量输入到池化层,通过下采样来筛选重要特征信息,降低向量维度,减少计算参数。然后,拼接经过池化处理后的特征向量,再经过全连接层和Softmax函

24、数进行分类。TextCNN对文本近距离浅层特征的抽取能力较强,且网络结构简单,可以快速提取文本中的局部特征;但也受自身卷积窗口尺寸的约束,无法捕获文本全局语义信息,并且TextCNN的池化操作会导致大量语义特征和词语位置信息的丢失,影响分类任务的准确率。1.3BiLSTMLSTM是RNN的一种变体,不同于CNN对局部信息的关注,LSTM序列结构的设计特点,使它适用于时序数据建模。通过遗忘门和记忆门来丢弃无用的信息,重点保存有意义的信息,进而有效捕捉到长距离的文本依赖关系。但单向LSTM无法对逆向信息进行编码,容易造成文本尾部信息的影响力较大。而在文本分类任务中,前后词语之间联系紧密,合而见义,

25、单向LSTM缺乏捕获双向语义的能力,它的性能也受到了限制。BiLSTM模型可以综合考虑过去和未来时刻的输入信息,全面提取文本特征,对词语之间的长距离依赖关系和文本全局语义具有良好的捕获能力,尤其在长文本分类任务中表现出色。但BiLSTM本身结构较为复杂,参数较为庞大。使用单一的BiLSTM完成文本分类任务,往往需要深层的网络结构,容易造成梯度消失和梯度爆炸的问题,并且大量的参数训练需要消耗很长的时间。1.4注意力机制注意力机制(Attention Mechanism)最早被应用于计算机视觉领域,其思想启发于人类从大量信息中迅速提取关键信息的视觉模式40。Bahdanau等41于2014年将注意

26、力机制应用于神经机器翻译模型中,首次在自然语言处理领域引入了注意力机制。当前,注意力机制已成为文本分类任务中被广为应用的一个重要模块,大量研究表明它有益于解决信息过载问题,能够提升模型的性能。由于不同关键特征扮演着不同的角色,Xie等42提出了一种基于注意力机制的中文文本分类特征增强融合模型,使用注意力机制提取文本特征,然后利用BiLSTM-CNN进行特征融合,实验结果表明该方法显著地提升了中文特征的识别能力。Tao等43采用BiLSTM捕获中文文字的共同特性和文本的序列特征,并使用注意力机制来增强偏旁部首的作用,在两种数据集上的分类效果都超过了其他对比模型,F1分数达到了80.00%。Qia

27、o等44联合使用词语和文字两种层次的注意力机制,以利用细微的和局部的差异来区分文本类别,最终实验结果表明该方法在公开数据集上准确率最高达到了95.64%。2 GLSTCMHNN2.1模型总体架构如图1所示,GLSTCM-HNN总体由6个模块组成:词向量表示模块、卷积神经网络模块、双通道注意力模块、长文本裁剪模块、循环神经网络模块及融合分类模块。具体来说,词向量表示模块采用BERT预训练语言模型对文本输入进行动态编码,生成更为准确的词向量嵌入表示。本模型以100为分界线,将长度 100的文本视作短文本,将长度 100的文本视作长文本。为了模型参数的统一,本文将短文本输入长度统一约束为 32,长文

28、本输入长度统一为480。由于中文文本的主题思想大多分布在文本首部,文本首部对分类准确性的影响最大,后面大篇幅文本主要起解释说明的作用,对分类任务贡献较少。因此对于超出约束长度的文本部分,进行截取舍弃;对于不足约束长度的文本,通过补零操作进行填充。在卷积神经网络模块中,首先,将生成的词向量进行卷积操作,提取文本的局部关键特征,得到长/短文本卷积特征向量。然后,利用双通道注意力模块对卷积提取的特征向量进行关键区域增强。若文本长度大于32时,使用最大池化层将图1GLSTCM-HNN结构Fig.1Structure of GLSTCM-HNN2398第 8 期崔雨萌等:融合注意力和裁剪机制的通用文本分

29、类模型增强后的特征向量长度压缩为32。在循环神经网络模块,采用了BiLSTM模型提取长距离文本依赖关系。为保证模型在长短文本分类任务上的通用性,设计了一个针对长文本的裁剪模块,对长文本中具有重要意义的关键区域进行自适应性截取,将向量长度统一到32。最后,将TextCNN提取的局部关键特征和BiLSTM捕获的上下文语义特征进行拼接,送入融合分类模块生成最后的文本类别输出。2.2词向量表示模块词向量表示模块相当于整个模型的嵌入层,主要是对输入文本进行向量化处理,在此本文选用当前效果较好且应用广泛的BERT预训练语言模型,模型结构如图2所示。其中,Ei表 示 BERT 模 型 的 输 入 向 量,由

30、 字 嵌 入(Token Embeddings)、段 嵌 入(Segment Embeddings)和 位 置 嵌 入(Position Embeddings)三部分组成。Trm 是 BERT 所使用的Transformer编码器45,其采用多头自注意力机制从多个维度捕获更丰富的语义特征,并使用残差机制来缓解模型梯度消失和梯度爆炸问题。最后,BERT模型将每个文字输入编码成768维词向量Ti。另外,在预训练阶段,BERT采用掩码语言模型(Masked Language Model,MLM)和 下 一 句 预 测(Next Sentence Prediction,NSP)两个任务生成深层双向语言

31、表征。经过大规模语料的预训练后,BERT模型具有出色的特征提取能力,并且在不同任务中可以对词向量进行动态优化。2.3卷积神经网络模块在卷积神经网络模块,本文模型使用(1,768)、(3,768)、(5,768)三种尺寸的卷积核提取文本局部特征,每种卷积核数为70。如式(1)所示,ci为使用卷积核矩阵w Rk*d对输入词向量进行卷积操作所提取到的特征向量。ci=f(w xi:i+k-1+b)(1)其中:i表示第i个文字;k代表卷积核的尺寸;b为代表偏置;f为非线性激活函数PReLU(Parametric Rectified Linear Unit)。对包含n个字的文本中所有可卷积的窗口进行操作,

32、并拼接所提取到的向量形成特征图:Cj=c1jc2jcn-k+1j(2)其中:Cj为第j个卷积核所生成的特征图,并对长度不足n的特征向量进行补零填充(Padding)。式(3)中的Csum为对210次卷积提取的特征图进行拼接,最终所形成的卷积层的特征输出。Csum=C1C2C210(3)之后,使用双通道注意力模块生成的注意力权重向量Watt对卷积操作提取的特征向量输出进行增强,并将原始卷积得到的特征向量与增强后的特征向量相加,以达到既实现重点区域的增强,又一定程度上保留原始的特征信息。Cattsum=Csum+WattCsum(4)其中:Cattsum为注意力增强后的卷积特征输出。随后将得到的卷

33、积特征向量送入分类网络。若输入文本为长文本,采用最大池化操作将向量长度约束到32,再送入分类网络。2.4双通道注意力模块本文设计了一种能够关注文本重要信息的双通道注意力机制(DCATT),采用卷积和循环两种特征提取策略,分别提取文本中的局部关键信息和上下文序列信息,DCATT结构如图3所示。首先,将通过TextCNN网络提取的文本特征向量Csum,在通道维度上分别进行平均池化和最大池化,以获取包含文本底层语义信息的特征向量Cavg和包含高层语义信息的特征向量Cmax,具体公式如下:ciavg=1210k=1210cik(5)cimax=max(ci1,ci2,ci210)(6)其中:底层语义信

34、息重点涵盖文本中的通用内容;高层语义信息着重突出文本中的关键内容。将两种语义信息向量Cavg和Cmax拼接后,送入一组由尺寸为 3的卷积核构成的编解码网络,以获取文本中的局部关键特征Fr。其中,编码和解码操作分别如式(7)和式(8)所示:F1en,F2en,F100en=encoder(CavgCmax)(7)Fr=decoder(F1en,F2en,F100en)(8)然后,采用ReLU(Rectified Linear Unit)激活函数对局部特征进行关键信息映射,得到一张局部特征权重向量Wr。Wr=ReLU(Fr)(9)同时,使用LSTM对上下文序列信息进行串联,提取文本图2BERT模型

35、结构Fig.2Structure of BERT model图3DCATT结构Fig.3Structure of DCATT2399第 43 卷计算机应用中全局语义特征向量Fg。然后,采用Tanh激活函数对文本特征进行映射,得到一张序列特征权重向量Wg。Fg=LSTM(Csum)(10)Wg=Tanh(Fg)(11)之后,通过元素加操作实现局部关键信息对全局序列信息的调控并将结果经过Sigmoid激活层,进行权值映射,以获取一张能够增强文本关键区域内容的注意力权重向量Watt。Watt=Sigmoid(Wr+Wg)(12)2.5循环神经网络模块在循环神经网络模块,采用BiLSTM来综合考虑过去

36、和未来时刻的输入信息,全面提取文本特征。图4为BiLSTM模型的结构,BiLSTM主要由两组方向相反的LSTM单元组成,其中w0、w1和w2为模型输入的3个词向量。经过左向LSTM的特征提取后,得到正向特征向量组(hL0,hL1,hL2)。相应地,经过右向LSTM处理后,得到反向特征向量组(hR0,hR1,hR2)。最终,将两个方向提取到的特征向量进行拼接,形成最终的模型输出(hL0,hR2,hL1,hR1,hL2,hR0),即(h0,h1,h2)。图4BiLSTM模型结构Fig.4Structure of BiLSTM model对BERT生成的文本词向量Csum经过包含64层隐藏层的BiL

37、STM进行处理后,得到特征输出Hsum,并将其送入长文本裁剪模块处理。Hsum=(h1,h2,h128)(13)2.6长文本裁剪模块为了有效去除长文本中的冗余信息,并保证本模型在长短文本分类上的通用性,设计了一个基于注意力引导的长文本裁剪机制(LTCM),结构如图5所示。首先,将当前网络生成的注意力权重向量Watt进行阈值截断,获取二值掩膜图M,公式如下:mi=1,wiatt a0,wiatt a(14)a=1ni=1nwiatt(15)其中:i表示元素位置;a为注意力权重向量的元素均值;n为文本长度。然后,为了尽量保留文本中的有效区域,采用连通分量截取策略对按大小排列的前25%个连通分量进行

38、保留,获得区域掩膜图Mregion。随后,如式(16)所示,利用区域掩膜图对循环神经网络模块生成的长文本特征向量Hsum进行元素点乘操作,得到Hregion。Hregion=h1,h2,h128Mregion(16)并通过对Hregion去零化得到裁剪后的特征向量Dregion。此时,判断裁剪后的文本向量长度是否被约束到了32以内,若小于32,通过Padding操作用最近邻插值法(Nearest Neighbor Interpolation,NNI)将其补全,若超过 32,采用随机丢失策略(Missing At Random,MAR),将其文本长度约束到32。最终,得到基于短文本表示的长文本裁

39、剪向量D,具体操作如下:di=NNI(diregion),len 32MAR(diregion),len 32;i=1,2,128(17)D=d1,d2,d128(18)经过长文本裁剪策略得到的短文本内容包含了原文本中的主要特征,能有效去除原文本中的冗余信息。2.7融合分类模块经过对文本输入的处理后,在融合分类模块中,将使用双通道注意力模块对Csum增强后得到的特征输出Cattsum,与经过长文本裁剪模块的处理后的Hsum共同拼接,形成了包含局部关键字词信息和上下文依赖信息的最终特征向量。最后,采用全连接层实现信息融合和分值映射,并利用Softmax将分值转化成类别分数。3 实验结果及分析 3

40、.1实验数据本文使用复旦大学、搜狗新闻、THUCNews和今日头条4个公开文本分类数据集对模型的有效性进行验证,并构建两个混合文本数据集对模型的通用性进行验证,各数据集信息如表1所示。1)复旦大学数据集46:长文本分类数据集,由复旦大学计图5长文本裁剪机制结构Fig.5Structure of Long Text Cropping Mechanism(LTCM)2400第 8 期崔雨萌等:融合注意力和裁剪机制的通用文本分类模型算机信息与技术系国际数据库中心自然语言处理小组提供,包括19 636条长文本文档,分为20个类别。2)搜狗新闻数据集47:长文本分类数据集,包含18个类别。本文抽取其中的

41、10类,3 000条文档。3)THUCNews新闻数据集48:短文本分类数据集,包含14个类别,74万篇文档。本文选取其中的10类,20万条文档。4)今日头条数据集49:短文本分类数据集,采集于今日头条新闻客户端,共包含382 688条新闻文本,15个类别。本文从中抽取127 503条文本。5)混合长文本数据集:从上述4个公开数据集中筛选出7个公共标签,将两个长文本数据集中对应数据整理成长文本混合数据集,包括11 571条文本。6)混合短文本数据集:从上述4个公开数据集中筛选出7个公共标签,将两个短文本数据集中对应数据整理成短文本混合数据集,包括12 464条记录。为保证训练测试的可靠性和数据

42、分布的一致性,在划分数据阶段采用留出法(Hold-Out)50对数据集进行划分。将各数据集按照8 1 1策略划分为3个互斥的集合,且对每个类别的数据都按照相应比例进行划分,最后对数据的分布顺序进行随机化处理。3.2参数设置在训练过程中,模型采用的学习率为5E-5,优化器选择的是Adam。模型参数设置如表2所示。表2模型参数设置Tab.2Parameter setting of models部分BERTTextCNNBiLSTMDCATT卷积通道DCATT循环通道名称隐藏层层数(Hidden Layers)隐藏层维度(Hidden Size)注意力头数(Attention Heads)文本长度(

43、Text Length)卷积核尺寸(Filter Size)卷积核数(Number of Filters)批处理大小(Batch Size)激活函数(Activation Function)隐藏层层数(Hidden Layers)激活函数(Activation Function)卷积核尺寸(Filter Size)卷积核数(Number of Filters)激活函数(Activation Function)隐藏层层数(Hidden Layers)激活函数(Activation Function)值127681232/480(短文本/长文本)(1,3,5)(70,70,70)128/7(短文本

44、/长文本)PReLU64PReLU3100/1(编码层/解码层)ReLU1Tanh3.3评价指标在可靠性验证方面,本文采取了两种评价指标:准确率(Accuracy,Acc)和F1分数(F1 Score)。由于公开数据集中类别数量较多,不同类别的文本数量不平均,采用加权平均F1分数来减少样本分布不均衡所造成的影响。3.4对比实验为验证GLSTCM-HNN在文本分类任务中的有效性,分别在4个公开数据集上对比本模型和8个常见模型的效果:1)TextCNN15:使用 Word2Vec生成词向量,利用不同尺寸卷积核提取文本中的局部关键特征,并结合最大池化操作保留最主要的特征,最后采取Softmax进行分

45、类。2)BiLSTM51:使用 Word2Vec 生成词向量,通过 BiLSTM层提取文本语义信息和依赖关系,然后输入全连接层进行分类。3)RCNN27:使用 Word2Vec生成词向量,采取双向 RNN和CNN中的最大池化层提取文本中的特征,然后输入全连接层进行分类。4)TextCNN-BiLSTM52:使用Word2Vec生成词向量,结合卷积操作和BiLSTM层共同提取丰富的文本特征,然后输入全连接层进行分类。5)TextCNN-Attention:使用 Word2Vec 生成词向量,结合TextCNN和注意力机制提取局部特征,并对关键语句进行增强,提高分类效果。6)BiLSTM-Atte

46、ntion53:使用Word2Vec生成词向量,结合BiLSTM和注意力机制提取全局语义信息,并对重点语句提高权重,提高分类效果。7)TextCNN-BiLSTM-Attention:使用 Word2Vec 生成词向量,将TextCNN、BiLSTM和注意力机制相结合,对所提取的特征向量进行增强,提高模型性能。8)BERT35:使用BERT预训练语言模型提取文本特征向量,然后结合全连接层进行分类。各个模型的具体实验结果如表3所示。显然,GLSTCM-HNN在所有数据集上的表现优于各对比模型。在THUCNews和今日头条两个短文本数据集中,文本长度均小于32且数据量充足,其他模型也可以满足分类基

47、本需求。虽然在短文本数据中,本文模型较基础模型提升空间很大,但对比性能最好的BERT模型,提升幅度有限。但在复旦大学和搜狗新闻两个长文本数据集上,GLSTCM-HNN提升效果比较突出,在复旦大学数据集上,其准确率和F1分数较BERT提高了0.96和0.73个百分点。在小规模的搜狗新闻数据集上,本模型的准确率和F1分数较BERT提高了5.67和5.86个百分点。在长文本分类任务中,需要模型具有捕获长距离依赖关系的能力,且需要对关键词句进行重点考虑,本模型提出的机制能够很好地满足这两点要求,故效果提升较为明显。另外,在规模有限的数据集上,需要模型具有出色的学习能力,对重点区域进行有效的捕捉,因此本

48、模型在搜狗数据集上的效果提升较大。综上所述,GLSTCM-HNN无论在长短文本数据集上,还是在小规模数据集上,都有着最佳的效果。表1数据集划分情况Tab.1Datasets division数据集名称复旦大学搜狗新闻THUCNews今日头条混合长文本混合短文本类数2010101577文本数训练集15 7082 400180 000102 0279 2559 978测试集1 96930010 00012 7361 1591 243验证集1 95930010 00012 7401 1571 2432401第 43 卷计算机应用3.5消融实验为验证本模型各机制对整体效果的影响,本文采用了三组消融实验

49、进行对比验证:1)BERT-TextCNN54:该模型属于文本分类领域广为采用的方法,本文选择其作为基线模型进行对比,较 GLSTCM-HNN去除了并行的BiLSTM和DCATT。2)BERT-TextCNN-BiLSTM:在基线模型基础上引入并行的BiLSTM,但去除GLSTCM-HNN中的DCATT和LSTM。3)BERT-TextCNN-BiLSTM-DCATT:在 BERT-TextCNN-BiLSTM 模 型 中 引 入 DCATT,但 较 GLSTCM-HNN 去 除 了LTCM。消融实验结果如表 4 所示,与基线模型相比,GLSTCM-HNN在各个数据集上的表现都是最优的。在 T

50、HUCNews和今日头条两个短文本数据集上,评价指标提升了0.420.62个百分点。在复旦长文本数据集上,本模型的准确率和F1分数提高了0.96和1.58个百分点。在数据量较少的搜狗长文本数据集上,GLSTCM-HNN的分类准确率提高了4.00个百分点左右。由此可见,本模型在各个数据集上的表现均优于基线模型,且具有较强的学习能力,在数据有限的情况下,能较大幅度地提升模型表现。另外,对比模型 1 和 2 可知,BiLSTM 的引入弥补了TextCNN无法捕捉长距离语义信息的缺点,可以提升分类的效果。但相较于模型3,模型2去掉DCATT后,无法有效地对重点区域进行增强,混入很多无效干扰信息,因此导

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服