基于深度学习的藏文讽刺对话识别研究.pdf

资源描述

1、53Feb.20242024年2 月Vol.50No.信息化研究Informatization Research期第5 0 卷第基于深度学习的藏文讽刺对话识别研究尖羊措1.2.3，安见才让1,2.3（1.青海民族大学计算机学院，西宁，8 10 0 0 7；2.青海省藏文信息处理与机器翻译重点实验室，西宁，8 10 0 0 7；3.省部共建藏语智能信息处理及应用国家重点实验室，西宁，8 10 0 0 7）摘要：针对情感分类研究中讽刺表达检测困难，还未有学者对藏文讽刺识别展开研究的问题，本文创建了藏文讽刺对话数据集，并借助提示学习方法在预训练模型微调方面的优势，采用BERT和提示学习（Prompt

2、)对藏文讽刺对话进行识别。实验结果表明，本文所提出的方法优于基于BERT的句子级讽刺数据集（无上下文信息）上的结果，并验证了该方法的可行性，望对未来的藏文讽刺识别任务提供有效借鉴。关键词：讽刺识别；藏文；情感分类；提示学习中图分类号：TP391.10引言随着互联网的快速普及和网民数量迅速增加，人们通常会在抖音、快手、微信公众号等平台发表自已的观点和诉求，由此产生了大量的文本信息，这些信息中包含着人们对事物所持有的情感态度，如积极情感和消极情感。情感分析是指从人们发表的言论中提取情感或者观点,其研究逐渐从粗粒度情感分析到细粒度情感分析。文本细粒度情感分析从不同层次粒度可以分为篇章级情感分析、句子

3、级情感分析及方面级情感分析 2。目前，细粒度情感分析的最新任务有方面级情感分析三元祖抽取、多粒度情感分析、隐式情感分析及情感依赖关系抽取等。但讽刺识别、语义消歧等仍是情感分析领域中需要解决的难点 2 1。讽刺是指人们用比喻、夸张等手法对人或社会事件收稿日期：2 0 2 3-11-2 9基金项目：省部共建藏语智能信息处理及应用国家重点实验室、青海省藏文信息处理与机器翻译重点实验室开放课题（No.2021-Z-001)；青海民族大学研究生创新项目（No.09M2022004）进行揭露、批评。讽刺语言表达的复杂性往往会导致情感极性的反转，影响模型对情感分析性能 3 尤其是其中存在的一些隐含信息很难被

4、挖掘出来，这将影响情绪挖掘和决策的判断。所以，进行讽刺识别研究是很有必要且是情感分析领域中函待解决的问题。目前，中英文的情感分析和讽刺识别方面硕果累累。但是，藏语作为小语种存在适用范围小、掌握人数较少、数据难以采集等问题，讽刺识别工作仍存在许多不足，有较大的提升空间。1相关研究随着情感分析领域的不断扩展，讽刺识别成为了自然语言处理的热点问题之一。根据使用的方法不同，本文分别对近3 年的中英文讽刺识别工作进行梳理。目前国外讽刺识别研究主要以神经网络等深度学习方法和机器学习结合深度学习方法为主。Diaz等人 4基于社交媒体上的一些动性内容很难与真实的新闻、误导等区分开来的问题，结合了语言特征和BE

5、RT在讽刺性和非讽刺性的数据集上进行实验，为信息检索系统提供机制来识别哪些结果是合法和误导性的。Ali等人 5 提出了一种基于深度学542024年2 月研究与设计信息化研究习架构的新闻标题讽刺识别模型来检测新闻标题和讽刺内容,且得到了较高的准确率。Ren等人 6 利用外部知识和信息知识增强搭建用于识别讽刺信息的神经网络模型，其实验结果表明了此方法的有效性。Oxana等人门使用Transformer和卷积神经网络(Convolutional Neural Networks,CNN)结合不同的特征来捕捉讽刺，此方法优于当前最先进的结果。基于注意力机制可以帮助模型更好地理解文本中的信息,Rajni

6、sh等人 8 基于讽刺语句影响帖子的正确情感自动提取问题，提出了一个混合注意的长短时记忆(Long Short-Term Memory,LSTM)网络来识别讽刺语句。AlexandruCostin等人 9 采用基于注意力的长短期记忆架构将讽刺语境检测作为主要研究内容并证明了该方法的有效性。Hao等人 10 提出了一个上下文讽刺检测模型（ContextualSarcasm DetectionModel,CSDM)，解决有些方法忽略了语境线索能够为句子的讽刺性提供更多证据的问题。另外有学者采用机器学习结合神经网络进行讽刺识别，如Pradeesh等人 11结合机器学习分类器和深度学习模型来解决无法正

7、确识别讽刺目标的问题，该方法在文本中提取讽刺目标表现出更好的性能。Ifeanyi等人 12 基于大多数讽刺研究将语境信息孤立存在，导致其语义信息丧失的问题，采用两个分类阶段的多特征融合框架解决此问题并得到了较好的效果。随着针对讽刺识别的研究愈发深入，深度学习方法也逐渐得到完善和提高。罗观柱等人 13 基于反讽的存在影响情感分析或观点挖掘的问题采用注意力机制的神经网络模型，该模型不考虑句子的上下文，而根据文本中前后情感矛盾的两个词就能够推断是否为反讽。白晓雷等人 14基于反讽识别研究中其准确率不高的问题提出一种融合微博反讽语言特征的卷积神经网络模型，该模型比文中所提出的融合微博语言特征的词袋模型

8、具有明显优越性。樊小超等人 15 1针对反讽识别中缺乏上下文语境信息和修辞表达信息的问题，提出LSTM和CNN结合的多语义融合的反讽识别方法，该方法能够从多个维度提取反讽文本的潜在语义特征。李垒昂等人 16 基于监督学习需要有大量数据，而有限的数据影响模型对讽刺检测的性能，故采用迁移学习的方法提升神经网络模型的性能。对于当前讽刺识别方法在讽刺表达与理解方面固有的不确定性的问题，谭陈琛等人17 采用动态记忆机制和注意力机制对微博案件评论进行讽刺检测，能够对涉案微博评论讽刺句检测起到很好的支撑作用。周海波等人 18 基于讽刺识别影响情绪分析、意见挖掘的问题，采用BERT-CNN进行讽刺识别。梁斌等

9、人 19 基于现有的研究缺乏考虑讽刺对象对讽刺表达的影响问题，采用BERT-Base-Chinese和提示学习方法在面向话题的讽刺数据集上进行实验并得到了最佳性能。也有学者将数学框架应用于讽刺识别研究中，如张亚洲等人 2 0 1提出一种量子概率启发式网络，其讽刺识别准确率有明显的提升。付月等人 2 1建立一个无监督的概率关系模型，从微博评论中词语的情感分布来识别讽刺主题，该方法非常适合于短文本的讽刺预测。综合以上研究，中英文的讽刺识别已经取得了明显的进展。然而，藏文讽刺识别研究尚处在发展初期，目前主要有以下两个问题：缺乏公开权威的讽刺数据集。暂未有藏文讽刺识别相关的文献供参考。2模型和语料库构

10、建本文采用预训练模型BERT结合提示学习(Prompt)方法进行藏文讽刺对话识别。如图1所示，该方法主要包括语料库的构建、输入文本建模、构造讽刺对话的提示模版以及模型训练。2.1语料库构建1采集数据目前藏文讽刺识别没有公开的语料库，其相关的数据集也较为缺乏，故本文通过爬虫技术在微博、藏文网页采集数据。对爬取数据集当中的特殊字符、表情等讽刺文本不相关的内容进行清洗。其次，满足讽刺对话句式的文本甚少，另采用人工方式在藏文小说和网页中筛选含有讽刺情感的数据并加工创建为讽刺对话句式。2）数据标注数据注释分为讽刺和非讽刺。首先，由两人分别进行人工标注，对于难以判断为讽刺情感表达的数据由藏学专业的同学进行

11、审核并标注。其次，讽刺对话句式由一条话语加一条回复构成，其中1表示具有讽刺性，0 表示无讽刺性，具体如表1所示。55研究与设计尖羊措，习的藏文讽刺对话识别研究期第5 0 卷第采集数据是否识别是否为讽刺爬虫人工类别映射藏文网页书本、加工构建对 MASK位置进行类别标签词预测BERT数据清洗构造讽刺对话文本模板-讽刺对话数据标注输人构建藏文讽刺对话语料库CLS(Above)+(Below)是讽刺对话表达吗？MASKJSEP注：Above(上文)Below(下文)图1藏文讽刺对话识别方法整体框架表1讽刺对话数据示例序号上文下文注释11(讽刺)(恶狗挡不住）（恶人抓不住）20(非讽刺)（这本书很好）（

12、大家阅读是有益的）2.2模型构建1）输人层本文选用BERT对文本进行编码并提取特征向量。首先，得到文本中各个词的原始词向量。其次，通过文本向量刻画全局语义信息，与词的语义信息相融合。由于出现在文本不同位置的词所携带的语义信息存在差异，BERT将不同位置的词分别附加一个不同的向量以作区分。最后，将得到的特征向量作为模型的输人。具体如图2所示。2）构造提示学习模版预训练模型在零样本、少样本情况下学习能力差，无法通用到不同任务。而提示学习的作用在于转换下游任务，根据任务的不同用提示学习方法设计相应的提示学习模板，通过掩码语言模型，在合适的位置 MASK并预测出类别标签 19，只需少量数据的提示学习微

13、调，就可以达到很好的效果，以激发预训练模型的潜能，具有强大的零样本、少样本学习能力。提示学习方法的输模板如图3 所示，图中的“Above”表示对话的上文，“Below”表示下文，“la-O100100100BERTO位置向量文本向量.-.词向量输入讽刺对话文本图2输入模版bel代表标签类别3）讽刺预测BERT是基于Self-Attention实现的深度神经网络模型，其情感分类效果明显优于其他的神经网络模型1。本文对输人文本进行建模，从而构造基于讽刺对话的提示学习模板，借助预训练模型BERT通过类别映射对 MASK位置进行类别标签词预测，从而识别该样例是否为讽刺。562024年2 月研究与设计信

14、息化研究Above:“a5r3a535CLS(Above)+(Below)是讽刺对话表达吗?MASK SEP“label“122图3藏文讽刺对话识别的提示学习模板示例3实验结果3.1实验数据最后构建的讽刺对话数据集共有2 0 0 0 条数据。其中爬取的数据占有9 6 7 条，筛选掉其中不符合实验要求的句子，最后只剩12 0 条。另通过人工采集的数据为5 0 0 条，此基础上加工创建的数据，讽刺和非讽刺分别为10 0 0 条，各占比5 0%，其中讽刺类的10 0 0 条数据里包括着反讽和讽刺两种表达类型，为了方便起见，文中均用讽刺识别进行表示。本文实验数据格式为：“Above”：“上文”。“Be

15、-low“下文”。“label“1或 o。“A b o v e 和“Below分别表示上下文句子，“label为“1 代表该数据为讽刺，“label为“o则代表该数据为非讽刺3.2结果分析本文实验选用两个模型进行对比验证，BERT和BERT结合Prompt的方法。实验结果如表2所示。表2实验结果分析方法实验数据准确率藏文讽刺数据BERT71%（句子级无上下文信息）BERT+Prompt藏文讽刺对话数据74%首先，选用BERT在单条藏文讽刺数据集上进行验证，虽然其准确率达到7 1%，但结果中出现识别错误的问题。如“5 9 5 19 5 5 7 5 5 5 5 0 5 1(服务员说的话就像放屁一样

16、）”标注为讽刺的数据误识别为非讽刺。主要原因在于讽刺特征不够明显，以及没有上下文信息的辅助导致预测错误。其次，讽刺对话数据集中包含着反讽和讽刺两种表达类型且特征较为复杂，所以本文所提出的方法（BERT十Prompt)并没有达到较好的效果。但是，BERT十Prompt在讽刺对话数据集（考虑了上下文信息）上的准确率高于句子级无上下文信息的数据集和单模型上的结果。如表3 所示，一条文本在不同的语境下表达出不同的的情感。在没有上下文信息的情况下很难判断“5 是否为讽刺性表达，然而从表3 中的示例可以看出结合上下文信息能够很容易判别为讽刺。所以，以对话形式融人上下文语境信息和结合提示学习方法能引导模型输

17、出期望的结果及有助于模型正确识别讽刺和非讽刺。表3结合不同上下文信息的讽刺表达示例结合上下文信息文本标签？（品行端正的仆人快乐）讽刺(1)（比起诡计多端的官员）（品行端正的仆人快乐）4结束语目前，情感分类研究中讽刺表达会影响情感极性，大多研究都是基于句子级（无上下文信息）的讽刺识别,且藏文讽刺识别方面还未有学者发表相关研究。针对这些问题，本文采用BERT和Prompt在藏文讽刺对话数据集上进行研究。不同于现有的研究，本文把反讽类型和讽刺类型都归类到讽刺识别研究中而检测模型的性能。另外，实验所用的数据集略少，下一步工作将扩充数据集以及改进模型，让模型能够更好地提取到反讽和讽刺特征并提升其性能。参

18、考文献1王春东，张卉，莫秀良，等.微博情感分析综述 J.计算机工程与科学，2 0 2 2,44（0 1）：16 5-17 5.2 谭翠萍.文本细粒度情感分析研究综述 J.大学图书馆学报,2 0 2 2,40(0 4)：8 5-9 9,119.3李垒昂，马鸿超，周清雷.基于迁移学习的讽刺检测 J.计算机应用研究，2 0 2 1,3 8（12）：3 6 46-3 6 5 0.4 Diaz G,Antonio J,Garcia V,et al.Compilation and Evalua-tion of the Spanish SatiCorpus 2021 for Satire Identific

19、ationUsing Linguistic Features and TransformersJJ.ComplexIntelligent Systems,2022,8(02):1-14.5 Ali R,Farhat T,Abdullah S,et al.Deep Learning for Sar-57研究与设计尖羊措日的藏文讽刺对话识别研究期第50 卷第casm Identification in News Headlines J.Applied Sci-ences,2023,13(9):5586.6 Ren Y F,Wang Zilin,Peng Qiong,et al.A Knowledg

20、e-Augmented Neural Network Model for Sarcasm DetectionLJJ.Information Processing and Management,2023,60(06):103521.7 Oxana V,Yevhen K,Grigori S,et al.Sarcasm DetectionFramework Using Context,Emotion and Sentiment Fea-tures J.Expert Systems with Applications,2023,234:121068.8 Rajnish P,Abhinav K,Prak

21、ash J S,et al.Hybrid Atten-tion-Based Long Short-Term Memory Network for SarcasmIdentificationJ.Applied Soft Computing Journal,2021(01):107348.9 AlexandruCostin B,Stefan T.Comparison of Deep Learn-ing Models for Automatic Detection of Sarcasm Context onthe MUStARD DatasetJ.Electronics,2023,12(03):66

22、6.1o Hao S F,Yao J K,Shi C Y,et al.Enhanced SemanticRepresentation Learning for Sarcasm Detection by In-tegrating Context-Aware Attention and Fusion NetworkJJ.Entropy(Basel,Switzerland),2023,25(06):878.11 Pradeesh P,Andrew T,Veronica L,et al.Detecting theTarget of Sarcasm is Hard:Really?J.Informatio

23、nProcessing and Management,2021,58(04):102599.12 Ifeanyi C E,Anir A N,Liyana S.Multi-Feature FusionFramework for Sarcasm Identification on Twitter Data:AMachine Learning Based ApproachJJ.PloS One,2021,16(06):e0252918.13罗观柱，赵妍妍，秦兵，等.面向社交媒体的反讽识别J.智能计算机与应用，2 0 2 0，10（0 2）：30 1-30 7.14白晓雷，霍瑞雪.融合微博语言特征的C

24、NN反讽文本识别模型研究J.通信技术，2 0 2 1，54（0 5）：112 6-1130.15樊小超，杨亮，林鸿飞，等.基于多语义融合的反讽识别J.中文信息学报，2 0 2 1,350 6）：10 3-111.16李垒昂，马鸿超，周清雷.基于迁移学习的讽刺检测J.计算机应用研究，2 0 2 1，38（12）：36 46-36 50.17谭陈琛，余正涛，相艳，等.基于动态记忆案件描述的涉案微博评论讽刺句检测方法J.中文信息学报，2 0 2 3，37(01):153-159,168.18 周海波，李天.基于BERT-CNN中间任务转移模型的短文本讽刺文本分类研究J.智能计算机与应用，2 0 2

25、3，13(05):156-160.19梁斌，林子杰，徐睿峰，等.面向话题的讽刺识别：新任务、新数据和新方法J.中文信息学报，2 0 2 3，37（0 2）：138-147,157.20张亚洲，俞洋，朱少林，等.一种量子概率启发的讽刺对话识别网络模型J.电子学报，2 0 2 2.50（0 8）：18 8 5-18 93.21付月，史伟.基于情感一主题一讽刺混合模型的讽刺检测研究J.计算机科学，2 0 2 3，50（S1）：141-146.尖羊措（1997），女，硕士研究生，主要研究方向为藏文信息处理及应用等。Research on Tibetan Satirical DialitionBased

26、onDeepLearningJianyangeu l.2.3,Anjian Cairang l.,2.3(1.School of Computer Science,Qinghai Nationalities University,Xining 810007,China2.Qinghai Key Laboratory of Tibetan Information Processingand Machine Translation,Xining 810007,China3.State Key Laboratory of Tibetan Intelligent Information Process

27、ing andApplication jointly built by the province and ministry,Xining 810007,China)Abstract:In response to the difficulty of detecting ironic expressions in emotion classification research andthe lack of research on Tibetan sarcasm recognition,a dataset of Tibetan sarcasm dialogue was created and the

28、advantage of Prompt learning method in pre-training model fine-tuning was used to identify Tibetan sarcasm di-alogue with BERT and Prompt.The experimental results show that the proposed method is superior to those onthe BERT-based sentence-level satire dataset(no context information),and validate the feasibility of the pro-posed method,hoping to provide an effective reference for the Tibetan satire recognition task in the future.Key words:irony recognition;Tibetan;emotion classification;prompt learning

展开阅读全文