基于BERT模型的中文新闻文本分类应用.pdf

资源描述

1、第8 卷第2 期Vol.8 No.2语言与文学摘要：AI赋能的互联网时代，带来了新闻数据量的爆发式增长，从这些亿万级的新闻文本数据中，探索出具有价值的有效新闻是非常重要的研究。本文在THUCNeWs数据集上使用CNN、R NN和BERT三种深度学习模型开展实验，其中BERT模型的准确率为0.9 8 7 2，F1为0.9 7 6 57。最后将训练好的BERT模型利用Streamlit工具部署在WEB端，实现了一个简明实用的中文新闻分类应用程序。实验证明了BERT模型在新闻文本分类任务中具有很高的准确性，不论在简明或是复杂、长文本或是短文本的分类条件下都具有较高应用前景。关键词：文本分类；深度学习

2、；机器学习；BERT模型中图分类号：TP399Application of Chinese News Text Classification Based on BERT(College of Intelligent and Technology of Tianfu College of SWUFE,621000,Mianyang)Abstract:In the AI-enabled Internet era,the amount of news data has been growing rapidly.It is very important to explore thevaluable a

3、nd effective news from these billions of news text data.In this paper,three deep learning models,CNN,RNN and BERT,areadopted on THUCNews dataset as experimental models.Accuracy of BERT model is 0.9872 and F1 is 0.97657.Finally,the trained BERTmodel is deployed on the WEB side with Streamlit tool,whi

4、ch achieves a concise and practical classification application.Experiments haveproved that the BERT model has high accuracy in news text classification tasks,and has high application prospects under concise,complex,long text and short text classification conditions.Key words:Text classification;Deep

5、 learning;Machine learning;BERT model四川工商学院学术新视野Academic New Vision of Sichuan Technology and Business University基于BERT模型的中文新闻文本分类应用许多张仕霞（西南财经大学天府学院智能科技学院，四川绵阳6 2 10 0 0）文献标识码：AXu Duo,Zhang Shixia2023年6 月Jun.20231引言自然语言处理领域中文本分类一直被研究者们广泛关注。它可以组织和管理海量的信息资源，如通过分析互联网平台的各种评论文本，分析情感数据进行分类，可以很好的协助决策者做决策；同

6、时，它也在不断推动辅助办公任务的发展，例如微博的信息标签功能，就可以有效过滤并推荐有效信息，使用户拥有良好体验。在新闻领域，文本分类发挥着举足轻重的作用。长久以来，新闻打消了人们的对未知的需求，引导并一定程度上左右了舆论，为人们的生活提供知识，做到了教育知识科普，让人们的生活多姿多彩起来。传统的新闻模式，是人们在日常生活中接触最多的一种文本形式，都是有文字整理而成的媒介形式。而今随着互联网技术的更新，网络新闻已然渐渐由纸媒过渡而来【2 。正如当下，今日头条、央视新闻、学习强国各类新闻客户端的兴起，使新闻资源变得愈发唾手可得，人们将更容易获得实时有效信息。然而，找到能够满足自己需求的信息，并在现

7、有的新闻资源中准确定位，这都是目前非常值得研究的3。因此，高效、准确的筛选和分类有价值的新闻，具有重要现实意义。近些年许多专家学者都投入到使用深度学习算法对文本分类进行研究。为解决人工构建特征的复杂过程，以较高准确性应用于分类任务，这便是深度学习相较于机器学习的优势。深度学习的概念在2 0 0 6 年首次提出，NLP领域的学者们纷纷投来关注【4。其中NN和RNN在文本分类中被广泛使用，它们可以将大量的文本数据自动分类，其通过特征表示步骤，以完成高质量语义提取，从而代替繁琐而低效率的人工操作。使得自然语言处理任务中深度学习的运用，对不收稿日期：2 0 2 3-4-3基金项目：全国高等院校计算机基

8、础教育研究会。课题名称：混合式教学在通识课程中的研究应用。课题编号：2022-AFCEC-563。作者简介：张仕霞（19 9 3.6-），女，四川眉山，讲师/教师，主要研究方向：机器学习、数字图像处理。许多（2 0 0 0.2-），男，四川巴中，信息管理与信息系统专业本科生，主要研究方向：大数据可视化及可视分析、自然语言处理、计算视觉。102许多，张仕霞：基于BERT模型的中文新闻文本分类应用同的处理阶段都具有不可替代的优势。本文要探讨的是基于深度学习的新闻文本分类模型，并通过实际新闻数据集对其进行训练预测，并开发部署在WEB端的应用程序。2技术理论2.1CCNN（卷积神经网络）CNN是一种带

9、有卷积结构的前馈神经网络，其层次结构主要包含卷积层和池化层。卷积层由一系列滤波器组成，这些滤波器对输入进行卷积，每个滤波器对整个数据的学习都有不同的共享特征。InputLayerConvolutionalLayerPoolingFullyConnecled OutputLayerLayerLayer图 1 CNN结构图当输入数据是一幅图像时，这些过滤器可能会学习水平或垂直的线条或边缘，然后学习更复杂的特征。这些过滤器的可训练参数窗口很小，整个图像被共享，导致网络的连接稀疏，远远低于传统前馈网络的可训练参数5-6 。卷积层的结果是一个特征图，池化层的主要目标是向下采样输入，对卷积层提取的信息进行

10、采样，并保留其最为核心的部分7 。池化层只是对输入进行降维，本文使用最大池化操作，目的是用来筛选出经过卷积操后得到的特征映射中最重要的特征。这种操作将可管理的输入传递给下一层，并有助于防止过拟合，过拟合发生在网络记住了训练数据中的特征，而对未见过的数据却不能很好地进行概括【8 。这些类型的层在CNN中以某种模式SummaryofRNNtypes交替出现，通常在一个或多个密集连接层之后，最终输出一个或多个期望值。2.2RNN（循环神经网络）RNN是一种神经网络模型，被广泛应用于自然语言处理领域。它的主要特点是能够处理序列化数据，例如时间序列数据，它反映了随着时间的推移，事物或现象的变化情况。但是

11、RNN不仅仅可以处理时间序列，也可以处理其他类型的序列数据，比如文本序列。这些序列数据都有一个共同的特征：后面的数据与前面的数据有关系9-10 。利用 RNN的这种能力，使得深度学习模型在自然语言处理领域中有着不错成绩，解决了语音识别、时序分析和机器翻译等问题。口OnetooneOnetomanyManytooneManytomanyTu图2 RNN的几种结构形式Manytomany103许多，张仕霞：基于BERT模型的中文新闻文本分类应用输入层，隐藏层和输出层，是构成RNN的三个主要层次。神经元在某时刻的输出可以作为输入再次输入到神经元，这是其重要的特点。也因为使用这样的循环结构，可以使得数

12、据中的依赖关系得以保持，进而有效传播了历史信息。2.3BERTBERT(Bidirectional Encoder Representationsfrom Transformers）是一种预训练语言模型。这是一种双向Transformer的编码器，总所周知解码器是不能够获取到需要进行预测的有效信息。所以该模型的主要创新点都在其进行预训练的方法上。12-1。代表机器阅读最高水平的SQUAD1.1理解测试，BERT在这里面中取得了十分惊人的成绩：它不仅在所有两项指标上都超过了人类，并在十一项项不同的NLP测试中创造了SOTA表现。出色的成绩，使得BERT无疑在NLP发展史上留下浓墨重彩的一笔。So

13、ftmaxLinearAdd&NormFeedForwardAdd&NormFeedForwardAdd&NormMulti-HeadAttentionPositionalEncodingAdd&NormMulti-HeadAttentionAdd&NormMaskedMulti-HeadAttentionInputOutputEmbeddingEmbeddingInputsOutputs(shifted right)图 3 TransformerPositionalEncodingBERT的基础建立在Transformer之上，其作为双向语言模型的能力是十分亮眼的。并且Bert普适性强的特点

14、无疑是被选则的主要原因，几乎所有NLP任务都可以使用BERT这种两阶段解决方案，而且效果会有明显提升【14。预计在未来一段时间里，Transformer依旧将在NLP应用领域占据主导地位。MHOHEACOUADBERTBERTPre-tralningFine-Tuning图4BERT模型结构图104许多，张仕霞：基于BERT模型的中文新闻文本分类应用3实实验设计3.1实验环境现下流行的深度学习框架主要包括PyTorch、TensorFlow、Pa d d l e Pa d d l e 等。其中PyTorch 的易软/硬件操作系统CPUGPU开发语言显存内存机器学习框架用性使得它成为应用程序中使

15、用最广泛的深度学习工具之一15。本章实验采用Pytorch 的深度学习框架，以及云服务器平台作为开发环境进行实验。表1深度学习实验环境详细配置Ubuntu20.04Intel(R)Xeon(R)Platinum 8255C CPU 2.50GHzRTX 3090*2Python 3.824GB43GBPyTorch Ver.1.11.0,Cuda Ver.11.33.2实验数据在本章实验中需要用到由清华大学NLP实验室整理发布的THUCnews数据集。该中文数据集中包含了约八十四万篇不同类别的新闻文档，其详细信息如下表2 所示。新闻分类体育娱乐彩票房产教育股票家居因此本实验将从原始的数据集上，

16、选取：财经，教育，房产，娱乐，游戏，体育，时尚，科技，时政，家居，这十个分类模块。将这些数据抽取为训练集、验证预测为该类的文本数量FP预测为该类的文本数量TN3.3.1准确率3.3.27召回率正确预测为该类的文本数与总文本数的比值称为Recall代表召回率，是将实际文本数与正确预Accuracy，即准确率。计算方式如下：测文本数相比得到的结果。其用计算式表达为：TP+TNAccuracy=TP+FN+FP+TN105由表2 可知，此数据集的数据种类数量分布很是不均匀。就拿“科技”类与“彩票”类来说，相差155,070个数据，与“股票”相当。面对这样的训练样本分布不均匀问题，为了保证实验的合理性

17、，需要做出一些修整。表2 THUCnews实验数据集数据量新闻分类131604时尚92631时政7587财经20049科技41935游戏154397社会32585星座集和测试集分别为50 0 0 10，50 0 10，10 0 0 10。3.3评估指标对文本分类任务来说，常用的评价指标主要如下：表3评价指标混淆矩阵实际非该类文本数量(1)数据量13367630853709716292824372508483577实际为该文本数量FNTPTPRecall=TP+FN(2)许多，张仕霞：基于BERT模型的中文新闻文本分类应用3.3.3精确率所有的预测结果中，正确预测出为该类别的文本数与预测为该类文

18、本数的比值叫做精确率。计算方式如下：Precision=3.3.4值精确率和召回率从不同的角度来评估分类模型的性能，但是在某些情况下，提高精确率可能会导致召回率的降低，而提高召回率也可能会导致精确率的降低。其计算方式为：DLML2PrecisionRecallF=Precision+Recall在值中，精确率和召回率的权重是相同的，当需TP要调整两者的组成比例时，则进一步可以使用表示：(3)TP+FP表4深度学习模型训练结果与机器学习模型训练结果对比ModelCNNRNNBERTXGBClassifierSVCRandomForestClassifierDecisionTreeClassifi

19、erKNeighborsClassifierBernoulliNB(4)(+1)PrecisionRecall(5)Precision+Recall3.4实验结果使用CNN、R NN和BERT三种模型在深度学习环境中利用THUCnews进行训练，其结果如下表4所示：Accuracy0.95120.96830.98720.91660.91110.89570.82690.76720.7054F1-Score0.946310.957320.976570.9154610.9100810.8905680.8211440.7775170.700024由上表4可知，深度学习模型的Accuracy、F1这两个

20、主要指标都比机器学习模型要好一些。其中CNN分类模型的Accuracy为0.9 512，F1为0.94631；R NN分类模型的Accuracy为0.9 6 8 3，F1为0.9 57 32；BERT模型的Accuracy为0.9 8 7 2，F1为 0.9 7 6 57。train loss201555oI10050.00图5CNN分类模型实时LoSs曲线图5是关于CNN分类模型在训练时候的Loss曲线。通过观察图中曲折情况，可以发现CNN模型在进行分类训练时候一直都比较稳定、缓慢减小的情况，但总体其存在一定浮动。由下图6 可以看出，仅管RNN在前期出现了一次较大的起伏，但是在训练次数越来越

21、多后逐步开始稳定了起来，CNN Train Losscurve起伏也小于CNN分类模型，以此来说其更具有分类优势。2.0trainloss15100.550001000015000 200002500030000itersRNNTrainLosscurve0050001000015000200002500030000iters图6 RNN分类模型实时Loss曲线106许多，张仕霞：基于BERT模型的中文新闻文本分类应用0.0B0.00checkpoint图7 BERT模型的Accuracy/F1曲线上图7 是关于BERT模型的Accuracy/F1曲线。实验设置了15个checkpoint，每

22、个checkpoint里面保存了相应的实验模型，为后续的预测做好存储准备。相较于前面的RNN、C NN两种模型，BERT预训练模型特更加稳定、准确。4文本分类应用的实现4.1立端口测试设计拥有一个良好的前端可视化、可输入的界面，是对深度学习中午新闻分类模型的基础应用。面向Python的前端web框架有很多种类的，比如Flask、D ja n g o、T o r n a d o 和Streamlit等。它们的功能各有千秋，总有一个优于其他的特点。因为本节考虑到需要一个简洁快速的测试环境，故选择了Flask框架进行接口调用测试。Z.0.0.1:2023168AL1052023图8 成功将模型调用为

23、API实验的测试依靠Postman来实现。如下图9、10所示，分别在网络中选取了两段文本长短不一、类别不一的新闻信息，输入text中。进过运行测试，模型准确地识别出了时政和科技两个新闻类别。107图9随机新闻测试分类测试结果-1POSTm127.0012023pre0tosy发ConkiBONH鞋200159m图10 随机新闻测试分类测试结果-2测试结果表明，此模型API调用成功、且模型分类效果符合预期，整个基础实验完成。此为后续模型部署运用到更复杂的网络环境中做好乐铺垫，以应对未来各种可视化的需求。4.2应用实现Streamlit是一个面向于深度学习、机器学习和数据可视化等任务的Python

24、框架。Streamlit的强大之处在于，只需要简短代码就构建出一个精美的在线App应用。基于前文的模型接口，本节将依据其，来部署到Streamlit框架中，搭建出一个对话形式的新闻分类机器人应用。如图11所示，便是本应用的基础页面。用户只需要在文本框中输入新闻内容，就可以实现新闻文本的分类，如图12。我是ChatNews新闻分类机器人，我可以将您的任何新闻分类！ClassificationYourNewsChatNews请输入您的新闻：图11应用初始页我是ChatNews新闻分类机器人，我可以将您的任何新闻分类！ClassificationYourNews-ChatNews请输入您的新在接受

25、马卡授的采访时，荷兰传奇古利特表示：“梅西已经进入了足球世界最伟大的行列，贝在接受马卡报的采访时，荷兰传奇古利特表示：“梅西已经进入了足球世界最伟大的行列，贝利、马拉多纳以及梅西是最好的球员，梅西最有可能赢得劳伦斯奖。这条新闻属于体育“类别习近平在听取讲解和讨论后发表了重要讲活。他指出，党和国家历来重视基础研究工作，新中国成立后特别是改革开放以来，我国基础研究取得了重大成就。当前，新一轮科技革命和产业变革突飞猛进，学科交叉融合不断发展。科学研究范式发生深刻变革，科学技术和经济社会发展加速渗透融合，基础研究转化周期明显缩短，国际科技争向基础前汨前移。应对国际科技竞争、实现高水平自立自强，推动构建

26、新发展格局、实现高质量发展，追切需要我们加强基础研究，从源头和底层解决关键技术问题，这条新闻属于时政“类别。图12应用完整页及其分类功能展示1085总结与展望深度学习可以更有效地捕捉句子中的复杂关系，从而使计算机更容易理解句子的意思。此外，深度学习还可以利用大量的数据来提高准确性，并且可以更好地处理语句的不同维度。面对新闻检索、挖掘这样的大问题，使得深度学习助力文本分类任务无疑成为了首选。本文将三种深度学习分类模型加以训练、预测并设计应用。其中BERT模型在THUCnews新闻数据集上获得了更好的分类效果，且设计的应用也符合便捷、高效和美观的要求。但本文的研究还存在一些未考虑到、未能完成的问

27、题，以期之后在以下两方面改进：（1）纷繁复杂是中文语句之特点。在今后的研究中，可以适当考虑引入对文本感情的分析判断，以甄别其情感之倾向。（2）更广阔的数据集与面向语言。本文仅针对中文新闻进行了分类任务，在后续研究中可以使用更多不同语言的训练数据集，并设计能够适应不同语言的预测分类模型。参考文献1涂亚婷，安建业，徐雪，基于深度学习的短文本分类方法研究综述J/0L.计算机工程与应用：1-132 0 2 3-02-13.2卢泽宾基于深度学习的中文新闻标题文本分类算法研究D.西南大学，2 0 2 2.D0I:10.27684/ki.gxndx.2022.002497.3刘亚培.基于CNN混合模型的中文

28、新闻文本分类方法研究D.郑州大学，2 0 2 1.D0I:10.27466/ki.gzzdu.2021.001130.4向荣。基于深度学习的半监督新闻文本分类方法研究D.西南大学,2 0 2 1.DOI:10.27684/ki.gxndx.2021.003046.5朱梦基于机器学习的中文文本分类算法的研究与实现D.北京邮电大学，2 0 19.6蓝雯飞，徐蔚，王涛.基于卷积神经网络的中文新闻文本分类J.中南民族大学学报（自然科学版）,2 0 18,37(0 1):138-143.7王乾，曾诚，何鹏，张海丰，余新言.基于RoBERTa-RCNN和注意力池化的新闻主题文本分类J/0L.郑州大学学报（

29、理学版）:1-8 2 0 2 3-0 4-0 2 .D0I:10.13705/j.issn.1671-6841.2022168.8 Zhao Weidong,Zhu Lin,Wang Ming,ZhangXiliang,Zhang Jinming.wTL-CNN:a news textclassification method of convolutional neuralnetwork based on weighted word embeddingJ.Connection Science,2022,34(1).9 Hanxu Wang,Xin Li.Chinese News TextCla

30、ssification Based on Convolutional NeuralNetworkJ.Journal on Big Data,2022,4(1).io Wei Fan,Li Fan.News text classificationbased on hybrid model of BidirectionalEncoder Representation from Transformers andConvolutional Neural NetworkJ.Journal ofPhysics:Conference Series,2021,2005(1).li Xu Xiao,Wang L

31、iJuan,Liu RuFan,Xu TianYu.Deep learning based news text classificationsoftware designJ.Journal of Physics:Conference Series,2021,2031(1).12 Tao Wenjing,Chang Dan.News Text ClassificationBased on an Improved Convolutional NeuralNetworkJ.Technical gazette,2019,26(5).13王任可.基于深度学习的新闻短文本分类研究D.广西师范大学，2 0 2 2.D0I:10.27036/ki.ggxsu.2022.000405.14张兵磊基于机器学习的中文新闻短文本分类研究D.华北水利水电大学，2 0 2 2.D0I:10.27144/ki.ghbsc.2022.000476.15李颖.基于深度学习和多特征融合的新闻文本分类方法研究D.西南大学，2 0 2 1.D0I:10.27684/ki.gxndx.2021.003776.【责任编辑：左莹莹109

展开阅读全文