基于并行卷积网络信息融合的层级多标签文本分类算法.pdf

资源描述

1、h t t p:/ww wj s j k x c o mD O I:/j s j k x 到稿日期:返修日期:基金项目:四川省科技计划项目(N S F S C )T h i sw o r kw a ss u p p o r t e db yt h eS i c h u a nS c i e n c ea n dT e c h n o l o g yP r o g r a m(N S F S C )通信作者:耿新宇(g e n g x y c o m)基于并行卷积网络信息融合的层级多标签文本分类算法易流耿新宇白静西南石油大学计算机科学学院成都 (y u r k c o m)摘要自然语言处理是人工

2、智能与机器学习领域的重要方向,它的目标是利用计算机技术来分析、理解和处理自然语言.自然语言处理的一个重点研究方向是从文本内容中获取信息,并且按照一定的标签体系或标准将文本内容进行自动分类标记.相比于单一标签文本分类而言,多标签文本分类具有一条数据属于多个标签的特点,使得更难从文本信息中获得多类别的数据特征.层级多标签文本分类又是其中的一个特别的类别,它将文本中的信息对应划分到不同的类别标签体系中,各个类别标签体系又具有互相依赖的层级关系.因此,如何利用其内部标签体系中的层级关系更准确地将文本分类到对应的标签中,也就成了解决问题的关键.为此,提出了一种基于并行卷积网络信息融合的层级多标签文本分类

3、算法.首先,该算法利用B E R T模型对文本信息进行词嵌入,接着利用自注意力机制增强文本信息的语义特征,然后利用不同卷积核对文本数据特征进行抽取.通过使用阈值控制树形结构建立上下位的节点间关系,更有效地利用了文本的多方位语义信息实现层级多标签文本分类任务.在公开数据集K a n s h a n C u p和C I企业信息数据集上的结果表明,该算法在宏准确率、宏召回率与微F 值种评价指标上均优于主流的T e x t C NN,T e x t R NN,F a s t T e x t等对比模型,具有较好的层级多标签文本分类效果.关键词:层级多标签文本分类;预训练模型;注意力机制;卷积神经网络;树

4、形结构中图法分类号T P H i e r a r c h i c a lM u l t i l a b e lT e x tC l a s s i f i c a t i o nA l g o r i t h mB a s e do nP a r a l l e lC o n v o l u t i o n a lN e t w o r kI n f o r m a t i o nF u s i o nY IL i u,G E N GX i n y ua n dB A I J i n gS c h o o l o fC o m p u t e rS c i e n c e,S o u t h

5、w e s tP e t r o l e u m U n i v e r s i t y,C h e n g d u ,C h i n aA b s t r a c t N a t u r a l l a n g u a g ep r o c e s s i n g(N L P)i sa n i m p o r t a n t r e s e a r c hd i r e c t i o n i nt h ef i e l do fa r t i f i c i a l i n t e l l i g e n c ea n dm a c h i n el e a r n i n g,w h i

6、 c ha i m s t ou s ec o m p u t e r t e c h n o l o g yt oa n a l y z e,u n d e r s t a n d,a n dp r o c e s sn a t u r a l l a n g u a g e O n eo f t h em a i nr e s e a r c ha r e a s i nN L Pi s t oo b t a i n i n f o r m a t i o nf r o mt e x t u a l c o n t e n t a n da u t o m a t i c a l l yc

7、 l a s s i f ya n d l a b e l t e x t u a l c o n t e n tb a s e do nac e r t a i nl a b e l i n gs y s t e mo r s t a n d a r d C o m p a r e dt os i n g l e l a b e l t e x t c l a s s i f i c a t i o n,m u l t i l a b e l t e x t c l a s s i f i c a t i o nh a s t h e c h a r a c t e r i s t i c

8、t h a t ad a t ae l e m e n tb e l o n g s t om u l t i p l e l a b e l s,w h i c hm a k e s i tm o r ed i f f i c u l t t oo b t a i nm u l t i p l ec a t e g o r i e so fd a t af e a t u r e sf r o mt e x t u a li n f o r m a t i o n H i e r a r c h i c a l c l a s s i f i c a t i o no fm u l t i

9、l a b e l t e x t s i s as p e c i a l c a t e g o r y,w h i c h d i v i d e s t h e i n f o r m a t i o nc o n t a i n e d i nt h e t e x ti n t od i f f e r e n t c a t e g o r y l a b e l i n gs y s t e m s,a n de a c hc a t e g o r y l a b e l i n gs y s t e mh a s a n i n t e r d e p e n d e n

10、t h i e r a r c h i c a l r e l a t i o n s h i p T h e r e f o r e,t h eu s eo f t h eh i e r a r c h i c a l r e l a t i o n s h i p i n t h e i n t e r n a l l a b e l i n gs y s t e mt om o r e a c c u r a t e l yc l a s s i f y t h e t e x t i n t oc o r r e s p o n d i n gl a b e l sb e c o m

11、e s t h ek e y t os o l v i n g t h ep r o b l e m T o t h i s e n d,t h i sp a p e rp r o p o s e s ah i e r a r c h i c a l c l a s s i f i c a t i o na l g o r i t h mf o rm u l t i l a b e l t e x t sb a s e do nt h e f u s i o no fp a r a l l e l c o n v o l u t i o n a ln e t w o r ki n f o r

12、m a t i o n F i r s t,t h ea l g o r i t h mu s e st h eB E R T m o d e l f o rw o r di n t e g r a t i o n i nt e x t u a l i n f o r m a t i o n,t h e n i t e n h a n c e s t h es e m a n t i c f e a t u r e so f t e x t u a l i n f o r m a t i o nu s i n gas e l f a t t e n t i o nm e c h a n i s

13、 ma n de x t r a c t s t h e f e a t u r e so f t e x t u a l d a t au s i n gd i f f e r e n t c o n v o l u t i o n a l k e r n e l s T h em u l t i f a c e t e ds e m a n t i c i n f o r m a t i o no f t h e t e x ti sm o r ee f f e c t i v e l yu s e df o r t h e t a s ko f ah i e r a r c h i c

14、a l c l a s s i f i c a t i o no fm u l t i l a b e l t e x t sb yu s i n ga t h r e s h o l d c o n t r o l l e dt r e es t r u c t u r e t oe s t a b l i s h i n t e r n o d er e l a t i o n s h i p sb e t w e e nh i g h e ra n d l o w e rb i t s T h er e s u l t so b t a i n e do nt h eK a n s h

15、a n C u pp u b l i cd a t a s e ta n dt h eC I e n t e r p r i s e i n f o r m a t i o nd a t a s e t s h o wt h a t t h e a l g o r i t h mo u t p e r f o r m sT e x t C NN,T e x t R NN,F a s t T e xa n do t h e r c o m p a r a t i v em o d e l si nt h r e ee v a l u a t i o n m e a s u r e s,n a m

16、 e l y m a c r o p r e c i s i o n,m a c r o r e c a l l,a n d m i c r oF v a l u e,a n dh a sab e t t e rc a s c a d em u l t i l a b e l t e x t c l a s s i f i c a t i o ne f f e c t K e y w o r d s H i e r a r c h i c a lm u l t i l a b e l t e x tc l a s s i f i c a t i o n,P r e t r a i n i n

17、gm o d e l,A t t e n t i o nm e c h a n i s m,C o n v o l u t i o n a ln e u r a ln e t w o r k,T r e es t r u c t u r e引言自然语言处理(N a t u r a lL a n g u a g eP r o c e s s i n g)是人工智能与机器学习领域的重要方向.自然语言处理中的一个重点研究方向是从文本内容获取信息并且按照一定的标签体系或标准将文本内容进行自动分类标记.文本分类被广泛应用在情感分析、垃圾短信分类、问答系统、信息检索等实际应用任务中.相比于单一标签的文本分

18、类任务,多标签文本分类的实际任务应用场景更为广泛.层级多标签的文本分类任务是基于多标签文本分类任务的一个重要分支,需要在对数据进行分类的同时,利用文本特征信息特征的层级关系,更加准确地将对应文本划分到具有上下位层级关系的标签体系当中.现阶段,为了提升文本语义的表示性并在模型中利用层级标签预测,研究者们使用了基于深度学习的方法、基于多种词嵌入组合的C NN模型方法和基于预训练模型的方法去完成现阶段的层级多标签文本分类任务.)基于深度学习与图卷积的方法()基于深度学习的方法.L i u等使用多标签文本分类中经典的深度学习算法,例如T e x tC o n v o l u t i o n a lN

19、 e u r a lN e t w o r k s(T e x t C NN),T e x tR e c u r r e n tN e u r a lN e t w o r k s(T e x t R NN)和F a s t T e x t,对文本进行特征抽取,并对全连接层进行标签集大小适应.以上的深度学习模型均可以在一定程度上解决极限多标签文本分类问题,也可以提升文本对应的语义表示.()基于图卷积的方法.T e x t G C N和G A T等模型可以对文本信息进行文本图的构建.图卷积模型利用图中节点之间的关系构建特征图上的边,建立文本图,并利用文本图中单词节点与边的关系,完成文本分类的任务

20、.)基于多种词嵌入组合的模型方法G a r g i u l o等提出多种词嵌入组合的C NN方法,并利用预测标签及其所有祖先标签的扩展层级标签方法,进一步解决层次多标签文本分类问题.Z h e n g等提出了一种用于多标签文本分类的B L S TM_ML P C NN模型,该模型联合字符向量与词向量作为模型输入,采用B L S TM模型构建文档特征图,最后使用多层感知器神经网络ML P C NN进行特征提取.实验结果表明,相比C NN,R NN以及两者的组合模型,B L S TM_ML P C NN具有更高的分类精度.)基于预训练模型的方法D u a n等提出了基于B E

21、 R T的中文多标签文本分类模型,将B E R T表示的特征向量直接输入到s o f t m a x层进行分类.L a n等提出的A L B E R T预训练模型,采用矩阵分解和跨层参数共享技术对B E R T模型进行参数压缩,在维持B E R T性能的同时,降低了其模型的空间复杂度,并提高了模型的训练速度,同时又对模型进行了扩展优化.基于当前的层级多标签文本分类任务与文本分类任务中所出现的不同范围的数据,研究者们提出了以下种主流的方法.)全局法:利用分类器同时处理所有的类别.)展平法:将原始问题分解为一组扁平的多标签分类子问题,从而忽略了文本与层次结构之间的关联以及不同层次结构之间的依赖关

22、系,这也将导致错误传播和无法将其文本正确分类.)局部方法:为层级标签的每一个节点都设置一个分类器,一般使用机器学习分类器模型,如S VM等.以上种方法在进行层级多标签的文本分类任务时,均存在各自的不足.这将导致模型不能很好地解决对层级标签的信息提取和对文本数据的特征抽取不充分的问题,也会使得在模型中无法利用上层任务指导辅助下层的文本分类预测任务.现阶段,多标签文本分类任务还面临着长尾标签将导致模型的预测无法获得较高准确率的问题.为了提高对底层长尾标签的预测性能,研究者们主要提出了以下类方法:利用机器学习的方法、利用数据增强的方法,以及基于知识转移的方法.这类方法旨在增加模型对尾部标签的优先级或

23、扩充数据并增强数据标签,不仅可以充分利用长尾标签的数据信息,也可以提升对底层长尾标签的预测性能.)利用机器学习的方法C a i等提出了一种基于支持向量机的层次分类方法来解决层级多标签文本分类任务,但这些传统的机器学习方法往往是基于词袋模型在文本中对其语义进行建模,在一定程度上限制了分类任务的预测性能.)利用数据增强的方法对底层长尾标签生成更多的数据,分为扩充数据和增强标签两种方法.其中,扩充数据是增加模型数据的样本数据量.而增强标签则是利用标签之间的相关性来解决长尾问题.标签增强主要有以下两种思路:()减少标签之间的竞争关系,增加尾部标签的优先级.()利用图卷积的方式对标签之间的关系进行建模

24、.该类方法通过增加尾部标签之间的相关性,促使更好地对标签信息进行增强.)基于知识转移的方法该方法主要从一些头部标签的知识转移到尾部标签上.例如:在每个类别标签上使用纠错分类模型(E r r o rC o r r e c t i n gO u t p u tC o d e s,E C O C),该模型依次给每个类别训练一个二进制的分类器.给定的每个类别标签可以使用该类别的自我原始特征和前一个类别标签分类器的预测共同训练分类器.同样我们也可以利用深度极端多标签学习模型(D e e pE x t r e m eM u l t i l a b e lL e a r n i n g,D e e p XM

25、L)在头部类别标签和尾部类别标签上同时训练,接着将头部标签的语义表示转移到尾部标签模型中,这样也可以提升模型对底层长尾标签的预测性能.基于现阶段对于多标签文本分类任务的问题,结合研究者们所提出的模型优化方向,文中提出了一种基于局部法和全局法相结合的方法,即在局部利用不同卷积核的大小结合自注意力机制提取文本信息中的不同维度的数据特征,并结合了全局的方法.该方法利用标签信息的上下位层级关系或标签的层次结构信息对文本的数据特征关系进行建模.然后将所获得的数据特征进行相似度计算,结合S o f t m a x将相似度矩阵进行归一化处理,利用阈值筛选.接着对具有上下位易流,等:基于并行卷积网络信息融合的

26、层级多标签文本分类算法关系的标签建立树形结构关系,得到层次结构标签树.对于以上构建表示层次结构的标签表示方法,现阶段常用的方法有两种:利用树形结构表示法,以及利用有向无环图结构表示法.针对上述描述,本文提出了基于并行卷积网络信息融合的层级多标签文本分类算法,目的是实现层次多标签文本分类的任务.本文的主要工作内容如下:)利用B E R T B a s e预训练模型对文本进行词嵌入,从个维度获取文本信息的数据特征:字(T o k e n)嵌入、句子(S e g m e n t)嵌入与位置(P o s i t i o n)嵌入.将个对应嵌入表示进行元素求和,得到两个形状为(,n,)的词向量矩阵与字向

27、量矩阵表示.)将获得的词向量矩阵分为C L S F e a t u r e s矩阵与A n o t h e r F e a t u r e s矩阵,将A n o t h e r F e a t u r e s矩阵输入基于自注意力机制改进的P a r a l l e l T e x t C NN模块.通过使用不同的卷积核大小,来抽取文本信息间不同深度的语义特征.)P a r a l l e l T e x t C NN模块分为T e x t C NN T o p L a y e r与T e x t C NN L o w L a y e r.它们都使用A n o t h e r F e a

28、t u r e s矩阵作为其输入.T e x t C NN T o p L a y e r和T e x t C NN L o w L a y e r将使用不同的卷积核对输入进行不同深度的数据特征提取.)经过并行的P a r a l l e l T e x t C NN模块以及池化层的最大池化(m a x p o o l i n g)操作后利用d r o p o u t操作防止数据过拟合,最终将其输入到连接层.在全连接层经过s o f t m a x归一化处理后,将利用字典保存每一个模块对应不同层的标签概率情况以及对应的层级标签类别与输入到s o f t m a x函

29、数前的数据特征矩阵.)利用数据特征矩阵拼接C L S F e a t u r e s矩阵,恢复原本带有C L S的文本语义特征矩阵,将数据作为S i m i l a r T r e e模块的输入.然后利用其标签信息词向量与恢复的文本语义特征矩阵进行相似度计算,并利用s o f t m a x进行相似度归一化处理,将归一化后的相似度使用阈值筛选建树的规则进行上下位标签建树.最终输出权重最大的树根节点与其左子节点作为预测的层级标签.在文本数据中通过将上述局部法和全局法相结合,使用文本数据特征信息与层级标签上下位的依赖关系,利用树形结构充分建模层级依赖.本文实现了层级多标签文本分类算法,该算法主要将

30、上层特征表示中的关键信息传播到下层特征的表示中,然后利用上层任务来指导下层进行预测任务,实验目的是为了提高底层标签的预测性能,同时降低层级标签预测的不一致性.基于并行卷积的深度神经网络模型基于S e l f A t t e n t i o n改进的B P T C NN模型结构如图所示,该模型主要由B E R T词嵌入模块、P a r a l l e l T e x t C NN并行卷积模块以及S i m i l a r T r e e树形结构对层级标签进行上下位关系构建模块组成.图基于S e l f A t t e n t i o n改进的B P T C NN模型的结构F i g S t r

31、u c t u r eo f t h e i m p r o v e dB P T C NNm o d e lb a s e do nS e l f A t t e n t i o n B E R T预训练模型动态词向量与字向量首先,对于中文的文本数据,需要进行词向量编码,将中文文本编码成计算机可以理解的数据特征.接着,利用B E R T预训练模型和双向T r a n s f o r m e r编码器,并以遮蔽语言建模(M a s k e dL a n g u a g e M o d e l,MLM)和下一句话预测(N e x tS e n t e

32、 n c eP r e d i c t i o n,N S P)为无监督目标,让模型输出的每个字与词的向量表示都更加全面准确地刻画输入文本的整体信息,并最终获得对应词向量与字向量的表示形式.B E R T模型下游训练词向量时,输入的将不再是单一文本数据,而是将输入文本数据的每一个词(T o k e n)送入其T o k e nE m b e d d i n g层从而获得的一个每一次转换的动态词向量.对于每一个T o k e n,它的表征有对应的词表征(T o k e nE m b e d d i n g)、句子表征(S e g m e n tE m b e d d i n g)和位

33、置表征(P o s i t i o nE m b e d d i n g),其中每一个E m b e d d i n g的维度都是(,n,)维,将这对应的个E m b e d d i n g按元素相加,会得到一个大小为(,n,)的合成表示,此时便获得了B E R T编码层的输入.B E R T编码层的模型架构如图所示.C o m p u t e rS c i e n c e计算机科学V o l ,N o ,S e p 图B E R T模型的E m b e d d i n g sF i g E m b e d d i n g so fB E R Tm o d e

34、 lB E R T模型将对应编码层的输出传递到神经网络中,同时神经网络获取其中的隐藏状态,并将隐藏状态全部存储在对象“e n c o d e d_l a y e r s”中,这将获得个维度的信息:深度神经网络的层数(层)、b a t c h号(句子的个数)、单词/令牌号(每一句中的单词个数)、隐藏单元/特征号(个特征).接着,从上述隐藏状态构建B E R T文本输入的词向量与字向量.想要获得对应的词向量,由上述隐藏状态每一个词可得到个长度为的单独向量.为了得到单一词向量更好的数据表示,将组合一些层向量.经过实验发现,利用最后层层向量组合可以获得最优的数据特征表示.对于词汇表之外的单词,由于

35、是多个句子和字符级嵌入组成的词汇表之外的单词,平均嵌入方法是最优选择.B E R T模型架构是一种多层双向变换器(T r a n s f o r m e r)编码器,对应结构如图所示.图B E R T的双向T r a n s f o r m e r结构F i g B E R Tsb i d i r e c t i o n a lT r a n s f o r m e r s t r u c t u r e在T r a n s f o r m e r的e n c o d e r中,首先利用自注意力机制(S e l f A t t e n t i o n)获得一个加权之后的特征向量Z,它便是注意力

36、A t t e n t i o n的计算结果.其计算公式如下所示:A t t e n t i o n(Q,K,V)s o f t m a xQ KTdkV()其中,Q,K,V代表词向量的个矩阵表示,dk表示其向量的维度.其次,利用T r a n s f o r m e r结构捕捉其位置顺序序列,引入位置编码(P o s i t i o nE m b e d d i n g).其对应的公式如下所示:P E(p o s,i)s i np o s idm o d e l()P E(p o s,i)c o sp o s idm o d e l()其中,p o s表示单词的位置,即T o k e n在序

37、列中的位置号码,且p o s,m a x q u e l e n g t h,m a x q u e l e n g t h表示单词序列的最大长度;位置向量的维度用dm o d e l表示,且与此时整个模型的隐藏状态维度值相同;i表示单词的维度,它的取值范围是dm o d e l/且为整数;i表示向量维度中的偶数维,i表示向量维度中的奇数维;P E则是一个行数为最大序列长度m a x q u e l e n g t h、列数为dm o d e l的一个矩阵,即此时该矩阵的形状为m a x q u e l e n g t h,dm o d e l.利用这样的位置编码结构,后续在模型训练过程中可以

38、使梯度下降更快.其次,在增加位置编码的过程中引入了周期性函数,这样就可以利用周期来表示词对之间的相对位置关系.B E R T词嵌入中的S e g m e n tE m b e d d i n g用于保存文本信息中的句对关系.假如输入的文本中有两句话且有先后顺序关系,B E R T模型将记录该句子向量属于第一句还是第二句,两种形式通过,来进行标记,该标记序列将记录在S e g m e n tE m b e d d i n g中.最后,基于B E R T预训练模型,该句话的S e g m e n tE m b e d d i n g的形状为(,n,),表示句子标签的个数,表示B E R T预训练模

39、型的维的向量维度,n表示长度为n的输入序列所获得的种不同的向量表示.在B E R T模型词嵌入的T o k e nE m b e d d i n g中,则是将每个字向量转换为固定的维度向量.首先将文本的输入进行T o k e n i z a t i o n处理,并将每一个字转化为一个维的W o r d P i e c eT o k e n向量,后续生成的词向量的T o k e n E m b e d d i n g将每一个字的W o r d P i e c eT o k e n进行拼接,组成最后的词张量或词矩阵,即T o k e nE m b e d d i n g.基于B E R T模型

40、的词嵌入,我们将利用T o k e nE m b e d d i n g,S e g m e n tE m b e d d i n g和P o s i t i o nE m b e d d i n g进行合成表示形成对应文本的词向量si表示以及字向量ti表示.输入长度为n的文本序列所获得的种E m b e d d i n g中,t o k e m b指代T o k e nE m b e d d i n g,s e g e m b指代S e g m e n tE m b e d d i n g,p o s e m b指代P o s i t i o nE m b e d d i n g,且这个E

41、 m b e d d i n g的形状均为(,n,),表示输入序列为个,n表示文本序列的长度,表示B E R T预训练的向量维度.我们还将利用S e g m e n tE m b e d d i n g与T o k e nE m b e d d i n g来进行特征融合,并利用L a y e rN o r m将B E R T模型中的E m b e d d i n g结构统一到相同的分布中,从而得到最终的(,n,)的合成表示的词向量.而字向量则是利用矩阵保留文本序列中的T o k e nE m b e d d i n g向量.基于B E R T的预训练模型利用一个长度为n的文本序列作为输入,该模

42、型生成对应的词向量与字向量的特征表示的公式如下所示:siL a y e r N o r m(t o k e m bs e g e m bp o s e m b)()tit o ke m b()结合上述B E R T模型的T o k e n,本文将使用哈工大讯飞实验室提供的中文预训练模型b e r t b a s e c h i n e s e与英文预训练模型b e r t b a s e c a s e d对后续文本进行预训练.词向量的维度与字向量的h i d d e n s i z e为维,句子p a d s i z e设置为,批处理的b a t c h为 ,每一句话的学习率为.在易流

43、,等:基于并行卷积网络信息融合的层级多标签文本分类算法以下公式中,x表示输入文档文本中所包含的词的个数,n表示文档中包含有n个字,其中每一个向量的维度均为 .基于文本预训练模型所获得的词向量矩阵S、字向量矩阵T的表示形式为:Ss,s,sxT()Tt,t,tnT()并行卷积网络层经过编码层后将获得对应的词向量矩阵与字向量矩阵,将其内部的词向量与字向量作为并行卷积网络层的输入并对其进行文本数据的特征提取.为了充分提取对应文本数据的特征信息,本模型增加了自注意力机制的并行T e x t C NN对其文本内容信息进行提取.本文提出的并行卷积网络层,将对字向量矩阵抽取低阶信息的模块称为T e x t c

44、 n n L o w l a y e r模块,将句子中的各个词向量矩阵组成的文本信息抽取高阶信息的模块称为T e x t c n n T o p l a y e r模块.T e x t c n n L o w l a y e r模块本文使用增加了自注意力机制的T e x t C NN模型在卷积层设置不同的卷积核大小,以应对高阶信息和低阶信息的特征提取.T e x t C NN模型主要由卷积层、池化层、非线性激活层、d r o p o u t操作以及全连接层组成.其中在卷积层引入的自注意力机制,其输入是B E R T模型提供的字向量矩阵的A n o t h e r F e a t u r e s

45、.)卷积层引入自注意力机制,是为了从字向量矩阵筛选出少量重要信息并增加某些关键词的权重以提取文本中重要的语义特征,利用字向量在卷积层中卷积核的大小对文本数据进行低阶特征提取.在T e x t c n n L o w l a y e r模块,采用大小为,和的卷积核对低阶数据进行局部特征词采取,其卷积过程表示为:hif(xywi(x,y)c(x,y)bi)()其中,hi代表卷积层的结果;f代表激活函数,该模型采用的是R e L U激活函数;wi(x,y)表示输出矩阵中第i个节点对应过滤器输入节点(x,y)的权重;bi是其第i个节点的偏置项;c(x,y)表示过滤器中节点(x,y)的值.由于共享权重,

46、此时w和b在卷积核中均相同.对于自注意力机制而言,所有的Q,K和V均来自于自身的词,故QKV,此时编码层中每一个位置都会处理编码器前一层的输出.)池化层池化层可以让模型更加注重某些特征,同时也能通过缩减特征向量和网络参数的大小达到降维的目的.本文对卷积操作的输出hi进行池化处理,利用最大池化方法实现.池化层的输出将作为融合层的输入,融合层的目的是将个池化层所提取的特征进行拼接,并形成一个具有代表性的组合特征向量.)非线性激活层利用非线性激活层,可以使神经网络的学习能力得到强化.本模型使用R e L U函数进行激活,x代表其对应输入激活函数的值.对应R e L U激活函数的公式为:

47、f(x)m a x(,x)()d r o p o u t操作d r o p o u t操作是池化层的输出进入全连接层前的一步操作.使用d r o p o u t操作是为了防止数据过拟合,并丢弃无效特征数据,降低后续无效特征数据对模型的影响.)全连接层全连接层在T e x t c n n L o w l a y e r模块中分为两层:第一层使用R e L U函数进行激活;第二层使用s o f t m a x函数将对应的l o w标签进行概率的归一化计算,此时需要使用字典保存s o f t m a x函数输出的所有概率最大的前个类别与其概率值,并保存利用R e L U函数激活的数据特征矩阵.T e

48、 x t c n n T o p l a y e r模块T e x t c n n T o p l a y e r模块的输入是词向量矩阵对应的A n o t h e r F e a t u r e s矩阵.在卷积层上,与T e x t c n n L o w l a y e r模块的卷积核大小上有所不同,T e x t c n n T o p l a y e r模块中设置的个卷积核大小为,和.在全连接层的第二层,利用字典保存s o f t m a x函数结果的t o p标签概率最大的前两个标签及其概率值.输出层经过T e x t c n n T o p l a y e r模块与T e x

49、t c n n L o w l a y e r模块对文本数据特征的提取,将获得对应层级标签中t o p层标签中个概率最大值标签和l o w层标签中个概率最大值标签.由于该分类任务最终目的是要输出一对具有层级关系的标签对,因此本文的输出层增加了阈值筛选模块与S i m i l a r T r e e模块.层级标签相似度计算利用全连接层,经过R e L U函数的特征矩阵与B E R T模型的对应C L S F e a t u r e s进行拼接操作.我们将t o p层标签的数据特征矩阵与词向量矩阵对应的C L S F e a t u r e s相拼接,l o w层标签的数据特征矩阵将与字向量矩阵

50、对应的C L S F e a t u r e s相拼接,拼接的目的是恢复其原有语义信息,增强标签之间的语义关系.对应的字向量拼接公式为:TtlGtsG()对应词向量的拼接公式为:WwlGwsG()其中,为拼接操作,W表示拼接后恢复原语义的词向量数据特征矩阵,T表示拼接后恢复原语义的字向量数据特征矩阵,tsG代表字向量的C L S F e a t u r e,wsG代表词向量的C L S F e a t u r e.对于t o p层标签与l o w层标签,将利用B E R T词向量模型输出其对应的词向量表示.将对应t o p层标签的词向量与恢复语义的词向量数据特征矩阵按权重进行聚合.经过多次实验

展开阅读全文