1、64网络暴力言论检测的技术和实践*a张冬瑜1,卢俊宇2,闵昶榮2,林鸿飞2(1.大连理工大学外国语学院辽宁大连116023;2.大连理工大学计算机科学与技术学院辽宁大连116023)提 要 暴力言论是网络语言治理的重点,由于社交媒体信息量巨大,运用自然语言处理等人工智能技术对网络进行自动检测是及时阻止网络暴力言论传播扩散的必然要求。由于网络暴力言论表达具有隐匿性和多样性,目前存在缺乏细粒度的中文暴力言论语料库,以及对于采取隐式表达的暴力言论检测效果不理想的问题。因此,本文构建了一个大规模的中文暴力言论语料库,并研制了基于双重对比学习和基于情绪辅助的多标签自训练暴力言论检测方法,并在多种数据集上
2、验证了其有效性和先进性。在大语言模型时代,将其与背景知识相结合可以更准确地检测暴力言论,但其生成内容需要与人类价值观对齐以符合当今的社会道德标准。暴力言论检测研究在未来发展包括多模态暴力言论检测研究、基于大模型的暴力言论检测方法研究、基于大模型的暴力言论监管机制研究、暴力言论检测的可解释性研究等 4 个主要方向。关键词 网络语言治理;暴力言论检测;大语言模型;语料库建设中图分类号H002文献标识码A文章编号2096-1014(2024)01-0064-12DOI10.19689/10-1361/h.20240106The Technologies and Practices of Detect
3、ing Online Violent SpeechZhang Dongyu,Lu Junyu,Min Changrong and Lin HongfeiAbstract With the rapid popularity of social media,user-generated content has shown an explosive growth.Against this background,online violent speech has become rampant,causing much concern and posing many challenges to inte
4、rnet language governance.Due to the implicitness and diversity of online violent speech,there are some problems in the automatic detection of those speeches.Firstly,there is a lack of a fi ne-grained and rich corpus of Chinese online violent speech for the training of automatic detection methods.Sec
5、ondly,online violent speech adopts implicit expressions,thus weakening the capacity of automatic detection methods.This paper reviews the previous studies on internet language governance and points out the challenging issues.At the same time,a large-scale Chinese online violent speech corpus was con
6、structed to lay the foundation for the detection of Chinese online violent speech.The online violent speech detection methods were proposed on the basis of Dual Contrastive Learning and Emotion-enriched Multi-label and verifi ed in a variety of data sets.This paper argues that Large*作者简介:张冬瑜,女,大连理工大
7、学教授,主要研究方向为自然语言处理、隐喻与幽默识别。电子邮箱:。卢俊宇,男,大连理工大学在读博士研究生,主要研究方向为情感分析、暴力言论检测。电子邮箱:。闵昶榮,男,大连理工大学在读博士研究生,主要研究方向为情感分析、幽默计算。电子邮箱:。林鸿飞,男,大连理工大学教授,主要研究方向为自然语言处理、情感计算、信息检索。电子邮箱:hfl 。国家自然科学基金“基于认知视角和语义表示的隐喻识别与应用研究”(62076051)、国家自然科学基金“细粒度仇恨言论检测关键技术研究”(62376051)、国家自然科学基金“面向社交媒体的中文幽默计算研究”(62076046)、2023 年度国家语委重点项目“汉
8、语自然口语语料库建设及应用研究”(ZDI14580)。65网络暴力言论检测的技术和实践 张冬瑜 等 专题研究二Language Models should be applied together with background information to detect violent speech more accurately.In addition,the content generated by these models should comply with moral standards of our society.This paper ends with discussions
9、of the impact of Large Language Models on online violent speech detection and suggestions for future research directions.Keywords internet language governance,online violent speech detection,large language models,construction of corpus一、引言随着移动互联网和社交媒体平台的发展与普及,网络上的用户生成内容呈现出快速增长的态势,互联网成为网民抒发个人情感的重要场所。
10、然而,自媒体的自主性、随意性和多样性,以及网络传播的难以控制,使得网络上语言暴力现象比较严重,带来的不良影响有日益扩大的趋势。因此,对网络暴力言论的语言治理势在必行。暴力言论是基于种族、宗教、性别、地域等特征对特定群体或个体表达仇恨、煽动伤害的不良言论,容易导致冲突,引发网络舆情。网络暴力言论发生频度较高,传播范围较广,造成危害较大,因此是网络语言治理的重点(向承才,王彬彬 2022)。面对社交媒体上日益泛滥的暴力言论,各个国家与相关的互联网平台企业纷纷采取了法律与技术手段予以治理(石佳友 2023;吴颖妍 2020)。德国、法国等欧洲国家较早通过立法禁止暴力言论的发布和传播,并且对互联网服务
11、提供商进行了明确的法律限制,要求互联网平台必须在规定时间内进行有效处理(Jordans 2017)。我国的多部法律也明确禁止包含诽谤、煽动民族仇恨、民族歧视与侮辱、破坏国家宗教政策等较为严重的暴力言论(方涧 2020;赵玉现,胡春莉 2019)。近年来,我国大力加强了对网络空间综合治理的实践探索,携手构建网络空间命运共同体白皮书指出,构建良好秩序是构建网络空间命运共同体的基本原则。2020 年,中共中央网络安全和信息化委员会办公室和国家互联网信息办公室发布网络信息内容生态治理规定,要求网络信息内容生产者不得制作、复制、发布含有煽动民族仇恨、违背宗教政策、鼓吹凶杀暴力等违法信息。国家网信办连续多
12、年牵头开展“清朗”专项行动,整治网络生态环境。其中于 2022 年 4 月开展了“清朗网络暴力专项治理行动”,于2023 年 6 月开展了“清朗网络戾气整治”专项行动。2023 年 7 月,国家网信办发布了网络暴力信息治理规定(征求意见稿),进一步加强了对网络语言暴力信息的治理力度。在网络平台层面,为了遏制网络暴力言论在社交媒体平台的扩散,网络社交平台也在其社区规章中对网络语言表达进行了不同的界定,详见表 1。表 1国内主要社交平台对网络发表言论的要求平台平台与暴力言论有关的禁止内容与暴力言论有关的禁止内容来源来源微博对特定人群加以标签化对立;试图将排挤、贬低、歧视、攻击、伤害正常化、常规化;
13、组织、煽动、引导不特定多数用户对特定群体进行歧视、诽谤、侮辱、仇恨;干扰公共秩序或者恶意投诉举报;粗俗冒犯;引导人肉;恶意挂人微博社区公约a抖音基于各种因素的歧视、仇恨;贬低特定个体、群体,宣扬刻板印象;贬损他人职业身份、社会地位、身体特征、健康状况;威胁、煽动暴力;组织、煽动、引导他人进行上述仇恨;展示歧视和仇恨意识形态内容抖 音 社 区 自 律公约ba参见:https:/ 2024 年第 1 期 总第 49 期平台平台与暴力言论有关的禁止内容与暴力言论有关的禁止内容来源来源哔哩哔哩恶意贴标签、扣帽子;挑拨煽动群体对立、制造群体矛盾事端、宣扬极端仇恨情感;贬损他人职业身份、社会地位、身体特征
14、等;对特定群体不平等对待、偏见、歧视;制造粉丝群体矛盾、干扰舆论不友善行为a知乎传播非法宗教,煽动民族仇恨;引战、钓鱼、煽动对立,诱导群体之间对立、冲突;发表极端男女权等言论知乎社区规范b鉴于社交媒体的信息量巨大,单凭人力不可能及时处理。因此,运用自然语言处理等人工智能技术进行自动检测是及时阻止网络暴力言论传播扩散、严格执行法律法规与各项限制措施的必然要求。对网络暴力言论检测领域进行全面总结和系统梳理,有利于各个学科领域的研究者了解相关研究的前沿与进展,为构建风清气正的网络环境贡献力量。本文将对暴力言论检测的最新研究进展进行了系统梳理,阐述暴力言论检测的任务,并通过构建的中文暴力言论语料库,提
15、出暴力言论检测方法,对大语言模型(Large Language Model,以下简称“大模型”)时代的暴力言论检测进行前瞻性的分析。二、暴力言论检测的研究进展网络暴力言论的相关研究近些年受到了国内外研究者的广泛关注。鉴于本文的目的是利用人工智能技术进行网络暴力言论的检测,因此将从以下 3 个方面对于暴力言论的国内外研究进展进行回溯,即暴力言论与负面情感、暴力言论的语料库建设以及暴力言论的检测方法。(一)暴力言论与负面情感暴力言论广泛存在于人类的日常生活中,可以看作仇恨、嫉妒、厌恶等负面情感在社交媒体中的具体表现形式。暴力言论具有多样性与复杂性,难以给出精确而统一的定义,对其进行进一步的细分,可
16、以更清晰地进行讨论。姜永(2015)尝试确立符合我国国情的暴力言论类型理论,将我国的暴力言论分成种族、地域、宗教、性别等 4 个领域。鉴于暴力言论危及人格尊严与言论自由价值,可对其进行比一般言论更为严格的限制,但从合宪性的角度考虑,这种限制还需符合 3 个原则:限制的法定主义原则、更多言论的自我净化原则、针对政府的最少限制原则。Khurana et al.(2022)提出了一个对暴力言论进行评价的框架,指出暴力言论可以依据攻击目标、攻击目标的社会特征、攻击者的特征、负面评价的来源、可能造成的后果这 5 个方面进行分类。Liu et al.(2019)根据攻击对象的特征将暴力言论分成宗教性言论、
17、种族性言论、残疾性言论和性取向言论4 类。Lu et al.(2023)在其创建的 ToxicCN 数据集中根据目标对象将暴力言论分为性别歧视、种族歧视、地域歧视、反对性少数 4 种类型,根据表达方式将暴力言论分为显式表达、隐式表达、报道式表达 3 种类型。Rttger et al.(2021)对暴力言论进行了细致的分类,将暴力言论分成贬损性语言、威胁性语言、诽谤性语言、亵渎性语言、利用代词表达的暴力、利用否定句表达的暴力、以问题或观点的形式表达的暴力、拼写变化等 8 种类型,并且对典型的非暴力言论也进行了分类,一共提出了 11 种类型和 29a参见:https:/ 张冬瑜 等 专题研究二种具
18、体情况。此后,根据非英语暴力言论的独有特征,Rttger et al.(2022)又将其扩充到了 34 种具体类型。Ayuningtias et al.(2021)则从词汇语法的角度,运用情态语气的分析将暴力言论分为陈述语气、祈使语气、疑问语气、感叹语气和呼格语气 5 种类型,分析了不同类型暴力言论的频率。(二)暴力言论的语料库建设暴力言论的语料库建设能够为暴力言论检测任务提供充分的数据支撑,同时通过从多元化渠道搜集暴力言论,丰富数据的多样性,使得研究者们对于暴力言论的特征有更加全面的认知。在暴力言论语料库构建中,标注方案决定着语料库类型及后续研究方向。常见标注项包括对象、特征、强度和负面情感
19、类型等。Basile et al.(2019)从 Twitter 收集与种族和性别仇恨相关的英语和西班牙语推文,发布了 HatEval 评测。该评测包含两个子任务,仇恨与非仇恨识别任务和仇恨特征识别任务。Hada et al.(2021)创建了细粒度的基于英语网络社区 Reddit 评论的暴力言论语料库,将冒犯程度转化为-1 到1 连续分布的数值,并且对多种暴力言论检测方法进行了评估。国内相关的中文暴力言论语料库在种类和数量上比较匮乏。Jiang et al.(2022)从新浪微博获取数据,标注项为是否具有厌女症、厌女症类别和厌女症对象,构建了中文厌女症语料库 SWSR,提出了针对女性的中文侮
20、辱性词表,对中文侮辱性语言的词法和语法特点进行分析总结。Chung et al.(2021)构建了较大规模的暴力言论语料库 TOCAB,包含性别、政治和地域等多种类型的暴力言论,每条文本标注了是否为侮辱性言论及攻击对象。暴力言论的表达不仅仅局限于文本模态,也包括图像和声音等多模态内容,模因图作为网络上的一种新兴交流方式,其中的暴力内容也与日俱增。为此,Facebook AI 发起了冒犯性模因挑战赛(Kiela et al.2020),任务是识别模因图是否具有冒犯性,这需要一定的推理能力。Fersini et al.(2022)发布了MAMI 厌女症语料库,作为 SemEval-2022 评测任
21、务。该任务不仅仅需要识别词语和语句是否表达了厌女情感,还需要识别厌女症的类型,后者具有更高的难度。(三)暴力言论的检测方法早期,由于文本是暴力言论最主要的载体,针对文本的暴力言论检测经常采取基于机器学习的方法,通过词典、构建规则和特征工程来完成暴力言论检测任务(Kiritchenko et al.2021)。机器学习方法所构建的特征包括以词袋模型和 TF-IDF 为代表的文本统计特征、以词嵌入为代表的语义特征、以词性标注和人称分析为代表的句法特征和以情感词典为代表的情感特征(Alrashidi et al.2022)。近期,随着深度学习的迅速发展,在暴力言论检测领域涌现出大量基于深度学习特别是
22、预训练语言模型的方法。Rizwan et al.(2020)将 4 个卷积神经网络模型连接起来,并在其间加入池化层以捕捉不同领域范围内的文本信息。Kim et al.(2022)针对暴力言论检测任务的特点对预训练语言模型 BERT进行再次微调,增强了暴力言论检测任务的可解释性。Caselli et al.(2021)则使用从 Reddit 中因为发布暴力言论被封禁的板块中获取的语料对 BERT 进行了重新训练,显著提高了 BERT 在暴力言论检测任务中的性能。Zhou et al.(2021)以 BERT 为基础,在多任务学习框架下,通过在情感分析任务与暴力言论检测任务之间进行知识共享,提升了
23、暴力言论检测任务的性能。根据表达方式的不同,暴力言论可以分为显式暴力言论和隐式暴力言论两类(王任华 2018)。上述方法通常都侧重于具有明显侮辱性词语的显式暴力言论检测,而在现实中网络上蔓延的暴力言论却不一定具有明显的标志性词语。ElSherief et al.(2021)发现相较于具有明显侮辱性词语的显式暴力言论,隐式暴力更加普遍。Hartvigsen et al.(2022)建立了包含隐式暴力言论的英文数据集,并且比较了常用的预训练语言模型检测暴力言论的性能。Min et al.(2023)在多任务学习框架下,利用暴力言论与68语言战略研究 2024 年第 1 期 总第 49 期情感之间的
24、内在关联,提出了一种多标签自训练的暴力言论检测方法,能够在隐式暴力言论检测数据集上取得良好的表现。另外,对于网络暴力言论出现的不规范、短文本、错别字等外部表现形式,也有研究者给出了具体的解决方法。丁玉霞(2020)对于粗粒度的谩骂型语言分类问题,提出了在迁移学习方法下的注意力有序神经网络模型;对于细粒度的谩骂型语言分类问题,提出了注意力选择机制下多层级嵌入模型。在 HASOC-2019 子任务数据集上,达到目前比较理想的结果。刘林斌(2022)针对暴力言论往往不够规范,文中往往含有许多表情、俚语和错别字词的现象,提出了一种基于文本质量和单词分布偏差纠正的暴力言论识别方法;针对暴力言论文本长度常
25、常较短,导致语义过于稀疏的现象,提出了一种基于语义概念扩展的暴力言论识别方法。陈静(2022)针对一词多义问题给暴力言论检测带来的困难,提出了基于主题记忆和注意力机制的暴力言论和攻击性言论识别方法。(四)暴力言论检测研究面临的挑战由于暴力言论主题和时空分布的广泛性和表达的隐匿性,使得暴力言论检测面临严峻的挑战。1.如何区分正当批评言论与暴力言论在社交媒体上发表言论,表达自己对于某些事物的负面情感,例如批评、愤怒、谴责、抨击等,是每一个网民的自由。由于这个过程当中会出现大量负面词语,而这些词语往往也是鉴别暴力言论常用的语言特征,因此会使自动检测系统产生混淆,造成“误伤”批评的言论,或者“放过”有
26、害的言论。2.如何识别生成内容的暴力言论随着人工智能技术的发展,基于自然语言处理技术的生成技术得到广泛的应用,由此带来的挑战就是如何识别这些生成内容可能包含的暴力言论。近期生成式大模型十分火爆,虽然开发者已经对它们施加了严格的控制策略,但在训练阶段、生成阶段都有可能产生暴力言论。3.如何利用背景知识和隐式语言特征暴力言论的表达往往与各个民族、国家、地区的制度、宗教、民俗和表达习惯乃至各个社交媒体平台的相关规定有关,甚至不同的民族和区域之间在语言使用方面存在某些冲突。此外,个体的语言运用也往往采取隐晦的表达方式。这些都造成暴力言论检测的困难,必须引入经过适当语义表示之后的背景知识。三、暴力言论检
27、测任务与实现(一)暴力言论语料库构建暴力言论语料库构建主要依据认知语言学和心理学理论,围绕暴力言论检测的需求,确定语料库构建原则。从社交媒体采集原始语料,确定数据收集和标注范围,构建完整的暴力言论语料库标注体系,包含对象、特征、强度和负面情感类型等细粒度信息,最终完成标注,形成一个可供训练的标准语料库。为了规避媒体平台的审查机制,网民们常常采用隐晦的方式来表达对特定群体的厌恶和偏见,这种言论被称为隐式暴力言论。例如,在“小仙女的事儿你少管”这一表述中,“小仙女”被用来讽刺女性。相较于含有明显侮辱性词语的显式暴力言论,隐式暴力言论的检测更为困难,需要结合中文特69网络暴力言论检测的技术和实践 张
28、冬瑜 等 专题研究二有的词汇知识进行检测。然而,现有的中文数据集常常忽视了含有隐式暴力言论的样本,并且缺乏对隐式暴力言论类型和表达方式的细粒度注释。这给研究者在此领域的工作带来了不小的挑战。为此,我们研发了针对隐式暴力言论的检测系统。首先,我们制定了一个多层次的分类框架,作为数据标注的准则,以便深入分析样本的暴力言论类型和表达方式。如图 1 所示,该分类框架共分为 3 个层级:第一层级提供了二分类的标签,用以判断给定文本是否包含暴力言论内容;第二层级对于暴力言论类型进行分析,区分包含特定攻击对象的暴力言论和不包含特定对象的一般性侮辱性言论;第三层级指明暴力言论的攻击群体和表达类型。图 1暴力言
29、论数据标注框架在此基础上,我们构建了一个细粒度中文暴力言论数据集,从性别、种族、地域和 LGBTQ 等 4个方面进行考察。该数据集总共包含 12 011 条样本。首先,划分为暴力言论和非暴力言论。然后,根据有无特定的攻击对象,将暴力言论划分为一般侮辱性言论(即包含明显的侮辱性但不具有特定对象)和仇恨言论(具有特定的攻击对象)。从仇恨表达的角度来看,一般侮辱性言论都是显式表达,仇恨言论则可以进一步划分为显式、隐式和中性 3 类。具体的数据分布如表 2 所示:表 2数据标签分布主题主题非暴力非暴力暴力暴力一般侮辱性一般侮辱性仇恨仇恨显式显式隐式隐式中性中性性别1805215331618371055
30、69389种族1602208422918551041711103地域12221148821066172292602LGBTQ9211076189887469299119合计55506461816564527371995913在数据标注阶段,我们采取了一系列措施以降低标注者的主观性偏见并提升数据的标注质量:首先,确保标注者的性别、地域、学历、民族等个人因素的多样性;其次,对标注者进行统一培训,使他70语言战略研究 2024 年第 1 期 总第 49 期们充分理解并准确执行标注规则;最后,通过几轮小规模的数据测试,对边缘样本进行深入分析,从而迭代式地优化和确定最终的标注规则。这一系列的严谨措施都是
31、为了确保数据集的高质量和可靠性。此外,我们还构建了一个包含隐式亵渎词语的侮辱性词典,进一步丰富了中文暴力言论研究的资源。此项工作不仅为中文暴力言论的自动检测提供了重要的数据基础,也为理解暴力言论的表达方式和特征提供了新的视角。(二)暴力言论检测方法1.基于双重对比学习的暴力言论检测方法现有的暴力言论检测模型过度依赖训练过程中获取的词汇先验知识。它们常常将一些高频侮辱性词语作为决策判断的依据,而忽视了语境信息的重要性。因此,这些模型往往会误将包含这些词语的样本统一视为暴力言论,导致对样本的误判,进而降低了模型的准确度。例如,在样本“What a fucking day!”(真是糟糕的一天!)中,
32、fucking 仅是用来加强“糟糕”之意,然而,由于这个词同样是常见的亵渎语,模型可能因此将该样本误判为暴力言论。为了解决这一问题,我们提出了一种新的双重对比学习框架 DCL(Violent Speech Detection Based on Dual Contrastive Learning)。该模型融合了自监督和有监督的对比学习,不仅丰富了对暴力言论的语义表示,还通过对样本内部语境信息和标签监督信号的利用,对侮辱性词语在样本中的含义进行了深入分析。这种方法有效减少了模型对含有侮辱性词语的非暴力言论进行错误分类的情况,同时也显著提升了模型的检测准确性。在 SemEval2019(SE)和 D
33、avidson(DV)两个开源数据集上进行实验,在基线模型 BERT 的基础上引入 DCL,实验采用准确率和 F1 值作为评价指标。实验结果如表 3 所示:表 3DCL 方法的对比实验结果数据集数据集SESE 数据集数据集DVDV 数据集数据集评价指标评价指标准确率准确率F1F1 值值准确率准确率F1F1 值值BiLSTM53.4651.9394.4293.72CNN-GRU61.9861.5194.1894.03BERT59.8358.5994.4494.41SKS65.8765.2195.0696.28DCLDCL66.5266.5266.7666.7695.6795.6795.4995.
34、49相比于其他基线模型,DCL 在 SE 数据集上表现最佳,性能相比于 BERT 模型提升约 7 个百分点,并且超越了最有竞争力的基线模型 SKS。在 DV 数据集上,DCL 在准确率指标上取得了最好的表现,而在 weighted-F1 上仅次于 SKS,但明显优于其他基线模型。SKS 使用了外部资源来提高性能,而 DCL虽然没有使用任何外部数据,却依然在 DV 数据集上取得了与之相当的性能。为了进一步验证 DCL 的有效性,我们对非暴力言论“I can be a bitch and an asshole but I will love you and care about you more
35、than any other person you have met.”进行了实例分析,对训练后的 DCL 和BERT 模型中的注意力权重进行了可视化,如图 2 所示。其中,颜色的深度表示模型对单词的注意力权重,单词的颜色越深,这个单词对模型检测的重要性就越大。相比于 BERT,DCL 更多地关注词集I,will,love,you,而对侮辱性的词语 bitch,asshole 的注意力权重更低。这一结果表明,DCL 可以更好地捕捉上下文信息以做出正确的决策,对暴力言论检测任务具有一定的指导意义。71网络暴力言论检测的技术和实践 张冬瑜 等 专题研究二图 2样本注意力权重热力图分析2.基于情绪辅
36、助的多标签自训练暴力言论检测方法尽管现有的暴力言论检测方法取得了一些进步,但是它们大多是基于文本内容的。从心理学与语言认知的角度出发,暴力言论是一种复杂的心理认知现象。对于暴力言论的理解与判断,最终依赖于人类的认知能力。同时,暴力言论的产生伴随着说话者心理状态以及情绪的变化。根据暴力-情绪关联理论,暴力言论的产生往往伴随着一些特定的负面情绪状态,比如愤怒、蔑视、羞辱以及厌恶。基于这一理论,我们提出了一种基于情绪辅助的多标签自训练暴力言论检测方法 EMoVSD(Emotion-enriched Multi-label Violence Speech Detector)。该方法主要由底部暴力检测分
37、类器、情绪检测分类器以及顶部暴力检测分类器三部分构成,见图 3。其中,底部暴力检测分类器与情绪检测分类器位于基于 BERT 的共享编码层之上。对于输入的情绪检测任务样本,情绪检测分类器能够预测其情绪标签。对于输入的暴力言论样本,我们认为该样本包含一个额外的负面情绪标签。所以我们借鉴多标签学习思想,利用顶部暴力检测分类器从标签层面实现两个任务之间的语义交互。具体来讲,首先采用底部暴力检测分类器与情绪检测分类器分别给出其暴力预测标签以及情绪预测标签。然后,考虑到暴力言论样本缺少真实情绪标签,所以通过锐化操作构建伪情绪标签,将其与真实情绪标签拼接,形成多标签样本的真实标签。最后,在伪多标签数据的基础
38、上,以自训练的方式,使得顶部暴力检测分类器能够充分利用情绪检测任务的标签信息来捕捉暴力言论样本的语义。我们采用端到端的方式来训练该方法,并且将顶部暴力检测分类器预测的结果作为最终的暴力预测标签。图 3EMoVSD 方法整体框架我们选取 HatEval-Relabeled(HER)、Davidson(DVS)和 Implicit Hatred(IH)3 个暴力言论检测数72语言战略研究 2024 年第 1 期 总第 49 期据集进行实验。这 3 个数据集中的样本均从社交媒体平台采集得到。对于 HER 数据集,本文遵循原文献中的划分方式,训练集、验证集以及测试集对应的数量分别为 9000,1000
39、 和 2971。对于其他两个数据集,采用五折交叉验证,实验采用准确率和 F1 值作为评价指标。见表 4。表 4EMoVSD 方法的对比实验结果数据集数据集HERHER 数据集数据集DVSDVS 数据集数据集IHIH 数据集数据集评价指标评价指标准确率准确率F1F1 值值准确率准确率F1F1 值值准确率准确率F1F1 值值SVM54.9740.8860.2450.3862.0345.79BERT68.7862.3194.4761.6473.9056.56SKS67.0959.1393.6562.7872.7957.60AbuseGNN67.0961.0694.2666.7673.7058.77E
40、MoVSD70.3870.3866.8466.8494.5994.5968.2768.2773.9973.9960.2360.23结果表明,我们所提出的方法在 3 个数据集上相比于现有的暴力言论检测方法性能均有明显提升。在准确率上,相比于之前的最优结果分别提升了 1.60、0.12 和 0.09 个百分点。这些提升能够说明该方法能够充分利用情绪状态与暴力言论之间的内在关联来有效提升暴力言论检测任务的表现,在多标签学习技术的支撑下将暴力标签与情绪标签关联起来,实现对于暴力言论样本内蕴情绪的有效建模。同时,相比基于多任务的AbuseGNN 方法,EMoVSD 方法在F1值上分别提升5.78、1.5
41、1和1.46个百分点。这说明除了多任务学习的方式,从多标签学习的角度利用暴力言论与情绪标签之间的共现特征同样能够提升任务表现。四、大模型时代的暴力言论检测(一)应用大模型进行暴力言论检测随着基于大模型的生成式人工智能服务的迅速发展,大模型技术也被应用于暴力言论检测的任务中。大模型从海量的训练数据中学习到语言知识和背景信息,通过识别并理解文本中的情感、偏见、歧视等不良内容的线索和上下文,辨别出潜在的暴力信息,同时生成决策的解释,告知使用者输入的文本为何被判断为暴力言论。利用大模型进行暴力言论检测的示例如图 4 所示,通过给定提示信息(请判断以下内容是否是暴力言论)和待检测文本(南方蛮子真不要脸)
42、,模型可以判断输入内容为暴力言论,并给出解释。图 4 利用 ChatGPT 进行暴力言论检测73网络暴力言论检测的技术和实践 张冬瑜 等 专题研究二(二)大模型与以往暴力言论检测技术的比较使用大模型可以充分结合背景知识更准确地检测暴力言论。研究表明,大模型英文暴力言论的检测能力与人类的检测水平基本相当,可以生成更具有逻辑性和可信度的决策解释(Huang et al.2023);同时,大模型能够处理不同语言和多样化的表达方式,使得暴力言论检测可以覆盖更广泛的用户群体和文化背景,具有更强的泛化性。但是,大模型在低资源语料上的检测效果依然有限,对中文等非英文暴力言论的检测能力不及传统方法。这是因为现
43、有大模型的训练数据大多以英文为主,模型对非英文语言的理解能力仍有待提高。因此,暴力言论检测依然是大模型研究的重点问题。(三)大模型生成内容与人类价值观对齐由于大模型的本质依然是针对训练数据中单词的出现频率和语言模式进行决策,因此,如果训练数据中包含对弱势群体的偏见内容,模型在诱导下也会生成相应的言论(May et al.2019)。同时,因为训练数据非常丰富并且涵盖多样化的文化观和价值观,所以也存在潜在的种族、文化和价值观之间的冲突风险,导致大模型输出的内容与人类价值观不一致,引发道德和伦理问题,最终造成误导、误解、歧视或其他不良后果。通过与人类价值观对齐,可以确保生成的内容符合社会的道德标准
44、,不会损害个人、群体或社会的利益。因此,大模型研发人员需要保护用户隐私,并确保平衡言论自由与限制暴力言论之间的关系。五、未来研究方向针对暴力言论检测的理论和应用价值、现实需求以及时代背景,基于上述的调研分析和技术路线,我们认为,暴力言论检测研究在未来有以下 4 个主要方向。(一)多模态暴力言论检测研究当前,随着以抖音、快手为代表的视频社交媒体的兴起,网络社交媒体的信息传播不再以文字为唯一的主要载体,图片、视频、音频也成为重要的网络信息传播载体。暴力言论的制造者为了逃避监管,很可能会运用图片、画面、配音等方式来传达暴力色彩。因此,有必要加大对于多模态的暴力言论检测的方法研究。(二)基于大模型的暴
45、力言论检测方法研究基于预训练大模型的微调成为暴力言论检测正在兴起的方法,但是如何运用大模型的能力进行暴力言论检测仍是一个重要的研究方向。网络信息浩如烟海,每天产生的新内容不计其数,形式千变万化,甚至有“喂毒”行为,这给基于大模型的暴力言论检测研究提出了挑战。(三)基于大模型的暴力言论监管机制研究受到来源各异的训练数据的影响,大模型中有可能蕴含着大量的偏见与暴力言论信息。因此,仅仅在社交媒体平台的监管中进行暴力言论的检测已经不足以遏制暴力言论的传播,必须对于大模型的生成内容进行有效监管,从源头遏止大模型生成含有暴力言论的内容。(四)暴力言论检测的可解释性研究如果暴力言论检测方法不具备可解释性,在
46、实际应用落地中就必将面临缺乏说服力的问题。更为关键的问题是自由表达的边界与暴力言论监管的规则如何有效地统一,既能维护网民言论自由,也能74语言战略研究 2024 年第 1 期 总第 49 期及时阻止暴力言论的传播。因此,需要对暴力言论检测方法开展可解释性研究,以解释自动监管的合理性。六、结论综上所述,暴力言论检测对于网络空间综合治理至关重要,能够有效地提高网络社交媒体平台管理的效率,防范网络暴力言论的扩散与传播。因此,网络暴力言论检测具有较高理论价值与应用价值。但是,网络暴力言论问题是一个复杂的社会问题,需要多方面的努力和合作来解决。应着眼于消除网络暴力言论滋生的土壤,完善监测识别、实时保护、
47、干预处置、溯源追责、宣传曝光等全链条治理。相信随着全社会对于暴力言论的重视以及人工智能技术的进步,基于人工智能的暴力言论检测将会成为网络空间治理中不可或缺的一环,为建设网络空间命运共同体、营造清朗网络环境贡献出重要的一份力量。参考文献陈静2022 基于主题记忆和注意力机制的仇恨和攻击性言论识别算法研究,济南大学硕士学位论文。丁云霞2020 基于 RNN 的仇恨言论和谩骂型语言多粒度文本分类的研究,云南大学硕士学位论文。方涧2020 网络仇恨言论的法律识别,甘肃政法学院学报第 3 期。姜永2015 论仇恨性言论及其限制,清华大学硕士学位论文。刘林斌2022 社交网络仇恨言论识别方法研究,电子科技
48、大学硕士学位论文。石佳友2023 网络暴力治理中的平台责任,法律科学第 6 期。王任华2018 隐喻认知视角的网络语言暴力,当代外语研究第 4 期。吴颖妍2020 互联网仇恨言论的传播特点及其治理探讨,新闻研究导刊第 24 期。向承才,王彬彬2022 网络暴力:言论自由下的新隐忧,传媒论坛第 3 期。赵玉现,胡春莉2019 网络仇恨言论判别与治理探究,信息安全研究第 11 期。Alrashidi,B.,A.Jamal,I.Khan,et al.2022.A review on abusive content automatic detection:approaches,challenges a
49、nd opportunities.PeerJ Computer Science 8,e1142.Ayuningtias,D.I.,O.Purwati&P.Retnaningdyah.2021.The lexicogrammar of hate speech:The case of comments responding to“New Zealand Mass Shooting”online news video.Proceedings of the Thirteenth Conference on Applied Linguistics(CONAPLIN 2020),114120.Basile
50、,V.,C.Bosco,E.Fersini,et al.2019.Semeval-2019 task 5:Multilingual detection of hate speech against immigrants and women in Twitter.Proceedings of the 13th International Workshop on Semantic Evaluation(SemEval-2019),5463.Caselli,T.,V.Basile,J.Mitrovi,et al.2021.HateBERT:Retraining BERT for abusive la
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100