基于mBERT的东南亚小语种推特文本情感分析_贺友程.pdf

资源描述

1、本栏目责任编辑：王力数据库与大数据技术Computer Knowledge and Technology电脑知识与技术第19卷第1期(2023年1月）第19卷第1期(2023年1月）基于mBERT的东南亚小语种推特文本情感分析贺友程（同济大学电子与信息工程学院，上海 201804)摘要：小语种由于其训练语料资源稀缺，在自然语言处理领域一直是一大难题，使用传统的机器学习方法与神经网络方法，具有很大的瓶颈。而跨语言预训练语言模型的出现，对于低资源语种的包括文本分类在内的多项任务，都起到了很大的提升效果。在基于海量语料训练得到的跨语言预训练语言模型mBERT的基础上进行微调，相较于传统的机器学习方

2、法，在情感分析任务的效率和准确度都可得到不错的提升。关键词:小语种；预训练语言模型；文本分类；情感分析；BERT中图分类号：TP391文献标识码：A文章编号：1009-3044(2023)01-0074-03开放科学（资源服务）标识码(OSID)：1 引言对小语种文本的情感分析的方法，经历了从构建其情感词典并采用基于规则的无监督方法、挖掘其文本特征并采用有监督的分类方法，再到基于跨语种的方法。然而，传统基于机器翻译的方法，或直接将源语种情感词典翻译为目标语种，或直接将目标语种翻译为源语种后进行训练，模型效果不够理想。对于低资源语种的情感分析，文献1通过将目标小语种机器翻译为源语种，通过英语情感

3、分类器对目标小语种实现分类；文献2提出CoNBiLSTM词嵌入模型在多语言和多领域环境中进行文本分类；文献3比较了4种机器学习方法对少量的印尼语推特文本进行情感分析的效果；文献4提出 LAAE 网络模型，通过LSTM+AAE获得跨语言情感向量后利用双向GRU进行情感分类任务；文献5提出基于时间卷积注意力胶囊网络的维吾尔语情感分类模型；文献6研究了通过多任务学习训练小语种文本的情感分析模型。BERT7通过词嵌入、句子类别、位置信息3个维度的特征，通过MLM与NSP进行微调，在包括文本分类在内的多项任务中均取得良好效果。而mBERT跨语言模型则是BERT的一个分支，支持100多种语言的多项NLP任

4、务。本文将mBERT运用到东南亚小语种推特文本的情感分析中，构建目标语种数据集，对mBERT的输出层进行调整后，通过微调训练实现目标东南亚小语种推特文本的情感分析器。2 数据预处理与数据集构建Sentiment1408是由Go等构建的包含了1,600,000条从推特爬取的推文的数据集，可用于情感分析相关的训练。本文基于其首先构建了源语言的微调训练数据集，并借助谷歌翻译构建了目标语言的微调训练数据集。2.1 源语言微调数据集构建Sentiment140 数据集可用于研究推特中关于品牌、产品、话题的情感极性，它移除了推文中的表情符号，以csv文件格式存储。它标注了推文的情感极性（积极情感用4表示，

5、消极情感用0表示）、ID、发布时间、发布用户与内容等信息，其格式如表1所示。表1 Sentiment140数据集格式标注0044推文ID1467810672146781091714678222721467822273发布日期Mon Apr06 22:19:49 PDT2009Mon Apr06 22:19:53 PDT2009Mon Apr06 22:22:45 PDT2009Mon Apr06 22:22:45 PDT2009QueryNO_QUERYNO_QUERYNO_QUERYNO_QUERY用户scotthamiltonmattycuserslebecca210内容is upset

6、that hecant update hisFacebook.Kenichan Idived many timesfor the ball.Managed to save 50%The rest go out ofboundsI LOVE Health4UandPets uguys r the best!m meeting upwith one of mybesties tonight!Cant wait!-GIRL TALK!对于微调训练数据集，仅需要关注其推文内容与情感极性，因此本文从中分别截取了仅包含推文情感收稿日期：2022-10-09基金项目：国家自然科学基金(72274138)作者

7、简介：贺友程(1998)，男，湖南怀化人，硕士，主要研究方向为自然语言处理。E-mail：http：/Tel：+86-551-65690963 65690964ISSN 1009-3044Computer Knowledge and Technology电脑知识与技术Vol.19,No.1,January202374DOI:10.14004/ki.ckt.2023.0043数据库与大数据技术本栏目责任编辑：王力Computer Knowledge and Technology电脑知识与技术第19卷第1期(2023年1月）第19卷第1期(2023年1月）标注与推文内容的10000条正向情感推文与

8、负向情感推文，共20000条数据作为源语言微调数据集。2.2 构建目标语言微调训练数据集本文利用了GitHub上的开源工具googletrans 调用谷歌翻译任务，它具备快速、可靠的特点，支持源语言自动识别、批量翻译、自定义服务地址以及HTTP/2。它的原理是通过构造AJAX请求完成谷歌翻译的请求过程，再对HTTP GET请求的返回结果进行解析，得到最终的翻译结果。通过设置多个翻译服务地址，可以使其在每次翻译时随机选择一个服务地址进行请求，避免短时间内对同一个地址进行多次请求。3 mBERT模型与微调BERT 模型的输入表示由字向量(Token Embedding)、文本向量(Segment

9、Embedding)和位置向量(Position Embedding)三部分求和而成，模型输出为各字对应的融合全文语义信息后的向量表示，内部则是由Transformer编码器堆叠而成。BERT的多语言版本mBERT直接使用多语言的单语语料，采用MLM作为训练目标进行训练，过程中没有加入任何信息来指示每句话的语种，也没有促使不同语言同义句具有相似表达的显性机制。它有cased 与 uncased 两个模型，均具备 12 层 Transformer块、768维的字向量与12个注意力机制头。而前者会考虑字符的大小写并支持非拉丁字符，因此本文选择前者进行微调训练。本文通过修改BERT中Processo

10、r的逻辑，调整最后的输出层为二分类任务，用上述得到的目标语种二分类文本训练数据集进行微调训练，最终得到目标语种的推特文本情感分类模型，过程如图1所示。图1 对mBERT微调得到目标语种推文情感分类器的过程4 实验4.1 实验数据集本文使用推特情感分析数据集Sentiment140中提取的 20000 条数据通过谷歌翻译后得到的越南语(vi)、泰语(th)、缅甸语(my)和印尼语(id)数据集进行实验。由于通过googletrans进行谷歌翻译对于用户直接调用AJAX请求的频率有限制，而本文需要完成的翻译量较大，因此采用多线程方式，结合多个谷歌翻译服务地址，以加速文本的翻译。为此，本文对2000

11、0条源语言推文数据，采用以2000条为一组，8个谷歌翻译服务地址，10个线程共同进行翻译任务。另外，由于mBERT原生支持的数据格式为tsv格式，因此将翻译后的数据输出为tsv格式，仅包含标签与数据两项内容。其中，按照9:1的方式划分训练集与测试集。实验数据详情见表2。表2 实验数据详情类别源语言数据集(Sentiment140)目标语言训练集目标语言测试集积极推文条数80000090001000消极推文条数800000900010004.2 评价标准本文进行的是文本分类任务，采用准确率(A)、精确率(P)、召回率(R)与F1值作为评价标准。定义如下：A=TP+TNTP+TN+FP+FN 1

12、00%(1)P=TPTP+FP 100%(2)R=TPTP+FN 100%(3)F1=2PRP+R 100%(4)4.3 实验结果为了对比不同方法对东南亚小语种推特情感分析的效果，本文对比了文献3中得到的两种最佳方法：朴素贝叶斯算法与多层感知机算法。其中对多层感知机方法的实验采用维度为(50，50)的隐藏层结构。通过相同的方法划分训练集与测试集，得到各项评价指标。实验结果如表3所示。实验结果表明，对于低资源的东南亚小语种，通过预训练跨语言模型mBERT进行微调后得到的情感分析模型效果，要优于朴素贝叶斯方法与多层感知机方法。5 结束语在情感分析的研究中，对于英语等语料库丰富的高资源语种，已经有非

13、常成熟的研究与实践方法，而对于低资源语种，尤其是包含东南亚语种在内的小语种，由于训练数据缺乏，因此无法像英语等语种一样训练出健壮成熟的单语言模型，目前在包括文本分类等任务中无法达到同等的效果。本文在对东南亚小语种情感分析相关研究的基75本栏目责任编辑：王力数据库与大数据技术Computer Knowledge and Technology电脑知识与技术第19卷第1期(2023年1月）第19卷第1期(2023年1月）础上，探索了采用预训练跨语言模型mBERT进行微调的方法对目标语种推特文本的情感分析，实验结果表明该方法可以获得比传统的朴素贝叶斯方法与多层感知机方法更好的效果。然而，由于本文微调数

14、据集基于机器翻译得出，因此最终模型可能受机器翻译模型效果的影响。未来可通过对微调训练数据进行降噪处理、改善微调模型等，提升情感分类效果。参考文献:1 Can E F,Ezen-Can A,Can F.Multilingual sentiment analysis:anRNN-based framework for limited dataEB/OL.2021-09-20.2018:arXiv:1806.04511.https:/arxiv.org/abs/1806.04511.2 Nguyen H T,Le Nguyen M.Multilingual opinion mining on You

15、Tube-A convolutional N-gram BiLSTM word embeddingJ.Information Processing&Management,2018,54(3):451-462.3 Indriani D,Nasution A H,Monika W,etal.Towards a sentiment analyser forlow-resourcelanguagesM/Proceedings of International Conference onSmart Computing and Cyber Security.Singapore:Springer Singa

16、pore,2020:109-118.4 沈江红,廖晓东.基于LAAE网络的跨语言短文本情感分析方法J.计算机系统应用,2021,30(6):203-208.5 Luo H,Yang Y,Dong R,et al.基于时间注意力胶囊网络的维吾尔语情感分类模型(Uyghur Sentiment Classification Model Based on Temporal Attention Capsule Networks)C/Proceedings of the 20th Chinese National Conference onComputational Linguistics,2021:2

17、48-257.6 Hande A,Hegde S U,Priyadharshini R,et al.Benchmarkingmulti-task learning for sentiment analysis and offensive language identification in under-resourced Dravidian languagesEB/OL.2022-03-20.2021:arXiv:2108.03867.https:/arxiv.org/abs/2108.03867.7 Devlin J,Chang M W,Lee K,et al.BERT:pre-traini

18、ng of deep bidirectional transformers for language nderstandingEB/OL.2021-09-20.2018:arXiv:1810.04805.https:/arxiv.org/abs/1810.04805.8 Go A,Bhayani R,Huang L.Twitter sentiment classification usingdistant supervisionJ.CS224N project report,Stanford,2009,1(12):2009.【通联编辑：光文玲】方法朴素贝叶斯多层感知机mBERT微调viA0.7

19、50.730.80P0.780.740.82R0.690.700.77F10.730.720.79thA0.710.680.76P0.740.690.77R0.670.680.74F10.700.680.75myA0.680.610.78P0.710.600.76R0.490.430.74F10.580.510.75idA0.760.730.78P0.810.740.78R0.670.720.80F10.740.740.79表3 各方法对测试数据集情感分析的效果（上接第73页）11)文件存储无论是Pandas还是NumPy，都支持对于外部文件的导入导出例如对于主流的数据文件格式csv，二者均能

20、提供完美支持。但相较于NumPy，Pandas支持的文件类型更为丰富，还包括：xlsx，HDF5甚至某些数据库格式。12)使用场景Pandas常见于数据分析、数据管理和数据可视化等使用场景。在众多数据科学相关项目的数据准备阶段，都能见到Pandas的广泛使用6。而NumPy更常见于纯粹的数值计算领域，尤其是其内置的大量矩阵操作相关函数和方法，能够大大简化矩阵运算的编程工作量7。13)在机器学习和人工智能中的使用在机器学习的过程中，通常可以分为数据准备和数据建模两个阶段。在先期的数据准备阶段中，常常能够看到Pandas大显身手，高效完成数据的清洗和处理。而在人工智能的经典应用中，必须通过NumP

21、y数组对图形、视频等对象进行矩阵化表示。只有经过数组化表示后，才能作为输入供TensorFlow或Scikit后续进一步使用。5 结束语本文通过对比Pandas和NumPy这两个数据科学领域中常见的第三方库，尝试帮助相关研究者和工作人员迅速厘清二者之间的区别与联系，从而能在自己的项目和工作中快速、准确地选择恰当的方法和工具，顺利推进研究工作的开展。参考文献：1 嵩天,礼欣,黄天羽.Python语言程序设计基础M.2版.北京:高等教育出版社,2017.2 高鸿斌,申肖阳.Python数据分析技术综述J.邯郸职业技术学院学报,2018,31(4):49-51.3 赵军,刘文婷.Python医学数据分析入门M.北京:人民邮电出版社,2022.4 肖慧明.Python技术在数据可视化中的研究综述J.网络信息工程,2021(13):87-89.5 陈都,徐峰.浅谈Python在创伤流行病学数据分析中的应用J.创伤外科杂志,2022,24(7):481-485.6 田学成,韩宁.公安工作疫情流调大数据建模和安全分析J.网络安全与数据治理,2022,41(10):31-36.7 胡孟柯.基于Numpy的离散Bayes网络推理J.电脑编程技巧与维护,2021(8):24-26.【通联编辑：谢媛媛】76

展开阅读全文