基于BERT语义分析和CNN的短文本分类研究.pdf

资源描述

1、第33卷第4期2023年12 月洛阳理工学院学报（自然科学版）Journal of Luoyang Institute of Science and Technology(Natural Science Edition)Vol.33No.4Dec.2023基于BERT语义分析和 CNN的短文本分类研究景永霞12，苟和平12，刘强1（1.琼台师范学院信息科学技术学院，海南海口57 110 0；2.琼台师范学院教育大数据与人工智能研究所，海南海口57 110 0）摘要：针对短文本数据量较小情况下CNN模型无法获得较好文本分类特征造成文本分类精度不高的问题，提出一种结合BERT语义分析和CNN的短文

2、本分类模型，通过对BERT预训练模型进行微调获得文本向量表示，文本向量能够体现文本特征的全局语义关系，并将文本向量表示数据输入CNN模型进行分类模型训练，获得最终的文本分类特征实现分类。此方法能够实现短文本分类精度的有效提升。关键词：短文本；词向量；文本分类；语义分析D0I:10.3969/j.issn.1674-5043.2023.04.013中图分类号：TP391文本分类是自然语言处理的主要任务之一，应用在很多场景，如人机对话、情感分析、垃圾邮件过滤和搜索引擎等领域，特别是近年来智能化应用的不断发展，文本分类受到许多学者的广泛关注。短文本作为一种特殊的文本类别，主要存在口语化、文本短小和语

3、法不规范等特点，这为文本特征的有效学习带来很大困难。传统的机器学习方法，如支持向量机（SVM）I和k最近邻算法（kNN）2 等算法都是常用的文本分类模型，但这些传统的机器分类模型没有获得文本上下文的语义关系，特别是针对短文本数据，产生高维稀疏数据表示等问题，造成分类计算开销大。目前，深度学习技术已经成为主流的文本分析模型，如研究人员采用CNN3、R NN、R NN与CNN融合等模型4，将深度学习应用到短文本分类中，采用基于深度学习的良好特征选择算法，提高文本分类的精度。但是对于短文本来说，单纯地通过增加网络深度来获取文本表示特征，难以提高分类效果。研究人员采用基于词向量的短文本分类方法5，融合

4、基于词向量和主题模型，提高文本特征向量的语义表征能力。基于Transformer的BERT预训练模型能够很好地获取文本上下文语义信息，特别是获得长距离的语义信息，如采用BERT和特征投影网络的特征提取方法6 。采用基于深度学习的文本分类算法是目前流行的文本分类算法，但需要大规模的语料进行训练。本文提出一种基于BERT预训练模型文本分类方法，通过领域数据集的微调，获得文本向量表示，然后将文本向量送人到CNN网络中进行文本分类，使得CNN获取更好的分类特征，提高分类效果。1文本表示模型在文本分类过程中，将文本输人分类模型前需要实现文本向量化表示，才能实现后续文本分类模型的相关计算操作，核心是获得的

5、向量能够充分实现文本语义表达。1.1基基于统计的表示模型传统的文本向量化方法有独热（One-hot）模型、词袋（Bagof Word）模型、TFIDF模型等，存在问题主要表现为：文本表示稀疏，形成稀疏矩阵，造成计算开销大；文本语义分析不足，难以解决一词多义在文本分类中的干扰现象；上下文语义关系理解不够。特别是对于短文本，随着文本数量的增加，文本表示更稀疏，且由于文本数量巨大，而每一条文本收稿日期：2 0 2 3-0 4-18作者简介：景永霞（19 8 4-），女，甘肃天祝人，硕士，教授，主要从事数据分析与自然语言处理方面的研究.Email:a_nice_.基金项目：海南省自然科学基金项目（6

6、2 0 QN282;621MS054）；海南省高等学校教育教学改革研究重点项目（HNJG2021ZD-48).文献标识码：A文章编号：16 7 4-50 43(2 0 2 3)0 4-0 0 7 8-0 6第4期的词量少，文本之间的语义关系挖掘困难，文本分类效果不佳。1.2基于神经网络的表示模型通过神经网络模型获取文本特征，能够有效地解决文本特征语义问题，特别是预训练模型的使用，能够更好地获得文本语义表示，有效解决文本分类过程中的一词多义带来的分类问题。目前广泛使用的基于神经网络文本表示模型是根据上下文与目标词之间的关系进行建模，常用的模型有Word2Vec和BERT。Word2Vec是一种浅

7、层神经网络，根据给定语料库，通过网络训练将文本数据中的每个分词（token）转化为k维空间上的向量，Word2Vec采用CBOW和Skip-gram两种训练模型。CBOW模型是根据目标单词（token）的上下文，输出目标单词的预测。Skip-gram模型根据已知目标单词（token），预测其上下文。BERT是谷歌公司2 0 18 年提出的一种基于深度学习的语言表示模型，与Word2Vec类似，是一种预训练语言模型，通过给定语料库训练获得文本向量表示，很好地捕获文本上下文之间的语义关系。BERT模型是基于是Transformer多层双向编码器7 ，结构如图1所示。景永霞，等：基于BERT语义分析

8、和CNN的短文本分类研究T7个个TrmTrm797个Trm个TrmTrmTrmTrmTrmE,E（i=1，2，3，N）是文本向量表示，是经过字符向量、字符类型向量、位置向量相加获得向量表示。Trm表示Transformer处理，多个双向Transformer进行文本处理，主要获得文本上下文信息。T(i=1，2，3，N）表示经过多层双向Transformer进行编码后输出的文本字符向量。BERT模型采用两种无监督任务进行预训练7 ：掩码语言模型（MaskLanguage Model，M L），随机屏蔽每个句子一定百分比的输入标记，然后再根据上下文（剩余的标记）预测那些被屏蔽的标记；下句预测（Ne

9、xt SentencePrediction，NSP），许多重要的下游任务都是基于对两个句子之间关系的理解，如问答系统和自然语言推理，为了训练一个能够理解句子关系的模型，训练数据选择两个句子，其中选择一定比例的数据表示一个句子是另一个句子的下一句，剩余的是随机选择的两个句子，判断第二个句子是不是第一个句子的下文。2基于 BERT 和 CNN 的短文本分类获取短文本中良好的文本特征、实现文本向量化表示是实现分类的关键，CNN的应用能够很好地获取文本特征，但需要大量语料库进行训练模型，以获取良好的特征。BERT模型能够获得文本词之间的深层语义关系，解决一词多义问题。本文提出了一种融合BERT和CNN

10、的短文本分类模型，通过BERT模型通过微调获取短文本词向量表示，再将文本词向量送入CNN模型去实现文本分类。基本流程如图2所示。E,图1BERT模型架构E80洛阳理工学院学报（自然科学版）开始数据预处理第33卷训练集测试集BERT模型分类模型CNN模型O结束图2 基于 BERT和 CNN的短文本分类流程CNN模型的基本结构如图3所示，分别采用2 56 个大小为3加5的卷积核对文本表示向量进行两次卷积，同时采用2 56 个大小为2 的卷积核对文本表示向量进行卷积操作，最后对两个卷积结果进行连接操作。256concatenate15classes256256d-768图3CNN模型基本结构采用BE

11、RT和CNN的短文本分类方法，把BERT关注文本上下文语义信息和CNN模型关注局部信息二者结合起来，实现文本特征的加强语义表示。对于包含K个类别的短文本数据集D=C,i=1，2，K ，实现分类过程如下：（1）首先采用数据集D对BERT模型的微调，使其能够更好地适应应用数据集。（2）根据微调后的BERT模型实现短文本数据的向量化表示。对于包含m个分词（tokens）的任意文(3)第4期本d=D，其表示为对于分词w，其表示向量为则文本d通过BERT模型的输出d表示为bllb12L6mlbm2式中：d 的维度为mn，即数据集D中的每一条文本数据的维度为mn；m表示文本的长度（tokens的数量），长

12、度超过m的文本将会被截断，少于m的进行补齐；n表示向量的长度，就是BERT模型最后一层隐层的hidden_ size。（3）获得文本数据集的向量表示，即一条文本就表示为二维向量，将其作为CNN模型的输人，CNN分别采用不同卷积核进行卷积操作，获得不同层面的文本特征，最后对特征进行连接操作。（4）通过全连接层（FC）和Softmax处理，获得最后的分类结果。经过全连接层处理获取的输出W为7 6 8 15维的权重矩阵，b为偏置项。则有yi=Softmax(y.)Z.yi=115（5）根据输出y的值，获得文本d的分类标签。3实验与分析3.1实验环境及数据实验采用Anaconda集成环境、Python

13、3.9。文本预训练模型为：BERTBAsE（L=12，H=7 6 8，A=12，TotalParameters=110M），模型微调实验数据来自今日头条短文本数据集。今日头条短文本数据集（TNEWS），包含15个类别共38 2 6 9 1条数据，其中训练集2 6 7 8 8 2 条，验证集57 40 4条，测试集57 40 5条。BERT训练和CNN分类相关参数如表1所示。参数名含义num_classes15batch size64learning_rate3 105pad_size16num_epochs3filter_size256dropout0.23.2评价指标短文本分类算法评价采用精

14、确率precision、召回率recall、综合评价指标F1（F1-me a s u r e）、宏平均及其加权平均。景永霞，等：基于BERT语义分析和CNN的短文本分类研究d=lwi,w2,.,wmw,=biu,b2,bn(i=1,2,m)booboiy=wid+b15e表1参数设置表参数值81(1)(2)bonbm：bmn(4)(5)(6)文本类别数批处理数学习率文本长度最大送代次数卷积核数量丢弃神经元的概率823.3实验结果基于BERT和基于BERT与CNN的文本实现的文本分类算法，算法的训练损失和验证损失、训练准确率、验证准确率如图4和图5所示。2.52.01.51.00.50.01.0

15、0.80.60.40.20.002.52.01.51.00.50.001.00.80.60.40.20.00图 5基于 BERT 与 CNN 的训练与验证的损失与准确率对比分析基于BERT的文本分类算法和基于BERT和CNN的文本分类算法，其测试的精确率、召回率、F1值的宏平均（Macroavg）和加权平均（Weighted avg）如表2 和表3所示。参数Macro avgWeighted avg洛阳理工学院学报（自然科学版）02.0002.000图 4基于 BERT 的训练与验证的损失与准确率20004000steps(a)损失2 0004000steps(b)准确率表 2 基于 BERT

16、的文本分类测试结果precisionrecall0.827 30.824 50.890 30.890 0第33卷train_lossval loss4.0006 000steps(a)损失4000steps(b)准确率6.000F1-score0.825 60.889 98000train_accuracyval_accuracy6 0008 000train_lossval_loss.60008000train_accuracy+val.accuracy8000support57 40457 404第4期与BERT分类相比较，本文实现算法的分类准确率（accuracy）达到8 9.42%，高

17、于单纯采用BERT算法的分类准确率。15个类别的F1-score值的宏平均和加权平均达到8 2.9 3%和8 9.38%。采用本文提出的结合BERT模型和CNN的短文本分类算法，能够很好地把短文本中的全局和局部语义信息结合起来获取文本特征，有效地提高算法的分类效果。4结语提出的短文本分类方法采用BERT预训练模型微调获得文本特征抽取，主要目标是解决数据量小的情况下采用BERT模型可获得文本语义表征的向量，再将这些经过特征提取后的数据特征向量作为CNN模型的输人，采用不同大小卷积核进一步提取分类语义特征，此方法能够有效地提高文本分类效果。参考文献：1万平，李立状,娄峰,等.基于PSO-SVM的文

18、本分类在保险精准营销中的应用J.系统工程,2 0 2 3,41(5)：144-150.2马新宇，黄春梅，姜春茂.基于三支决策的KNN渐进式文本分类方法J.计算机应用研究,2 0 2 3,40(4)：10 6 5-10 6 9.3 KIM Y.Convolutional neural networks for sentence classification C/Proceedings of the 2014 Conference on Empirical Methodsin Natural Language Processing.Doha:Association for Computationa

19、l Linguistics,2014:1746-1751.4 IYYER M,MANJUNATHA V,BOYD-GRABER J,et al.Deep unordered composition rivals syntactic methods for text classificationC/Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International JointConference on Natural Language P

20、rocessing,Beijing:Journal of Chinese Information Processing,2015:1681-1691.5杨阳，刘恩博，顾春华，等.稀疏数据下结合词向量的短文本分类模型研究J.计算机应用研究,2 0 2 2,39(3)：7 11-7 15.6郭攀峰.基于多维度特征融合的中文短文本多标签分类方法的研究D.武汉：武汉邮电科学研究院,2 0 2 2:2 0-2 5.7 DEVLIN J,CHANG M W,LEE K,et al.BERT:Pre-training of Deep Bidirectional Transformers for Langua

21、ge Understanding C/Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Lan-guage Technologies,Minneapolis:arXiv,2019:4171-4186.2.Institute for Educational Big Data&Artificial Intelligence,Qiongtai Normal University,Haikou 571100,Chi

22、na)Abstract:A short text classification model combining BERT semantic analysis and CNN is proposed to solve the problem of poor textclassification accuracy caused by the inability of CNN models to obtain good text classification features when the short text data is small.By fine-tuning the BERT pret

23、raining model,a text vector representation is obtained,which can reflect the global semantic relationshipof text features,and input the text vector representation data into the CNN model for classification model training to obtain the final textclassification features for classification.The experime

24、ntal results show that this method can effectively improve the accuracy of the shorttext classification.Keywords:short text;word embedding;text classification;semantic analysis景永霞，等：基于BERT语义分析和CNN的短文本分类研究表 3基于 BERT 和 CNN 的文本分类测试结果参数precisionMacro avg0.831 1Weighted avg0.893 6Classification Study on Short Text Based on BERT Semantic Analysis and CNNJING Yongxial2,COU Heping*2,LIU Qiang(1.Department of Information Technology,Qiongtai Normal University,Haikou 571100,China;83recallF1-score0.828 00.82930.894 20.893 8support57 40457 404(责任编辑：陈白生)

展开阅读全文