面向虚假新闻检测的社交媒体多模态数据集构建.pdf

资源描述

1、2023 年 8 月 Chinese Journal of Network and Information Security August 2023 第 9 卷第 4 期网络与信息安全学报 Vol.9 No.4 面向虚假新闻检测的社交媒体多模态数据集构建高国鹏1，房耀东1，韩彦芳1，钱振兴2，秦川1（1.上海理工大学光电信息与计算机工程学院，上海 200093；2.复旦大学计算机科学技术学院，上海 200433）摘要：社交媒体的出现正在改变着人们的生活，通过社交媒体可以便捷地获取和分享新闻，但同时助力了虚假新闻的滋生和传播，从而严重影响社会安全和稳定。因此，虚假新闻检测引起了研究者广泛关

2、注。尽管存在多种基于深度学习的解决方案，但这些方法需要大量的数据作为支撑。现有的虚假新闻数据集，尤其是中文数据集不仅稀缺，而且数据集中的新闻大多属于同一个类别。为了更好地检测虚假新闻，构建了一个新的多模态的虚假新闻数据集（MFND，multi-modal fake news dataset），其中包含政治、经济、娱乐、体育、国际、科技、军事、教育、健康和社会生活这 10 个类别的中文和英文新闻数据。对提出的虚假新闻数据集的词频和类别进行分析，并与现有的虚假新闻数据集在新闻数量、新闻类别、模态信息和新闻语种等方面进行了对比，结果显示 MFND 在类别信息和新闻语种方面表现突出。另外，利用现有的典

3、型虚假新闻检测方法在 MFND 上进行训练和验证，实验结果表明，相较于现有主流的虚假新闻数据集，MFND可以为模型提供 10%左右的性能提升。关键词：社交媒体；虚假新闻检测；多模态；多类别；数据集中图分类号：TP393 文献标识码：A DOI:10.11959/j.issn.2096109x.2023060 Construction of multi-modal social media dataset for fake news detection GAO Guopeng1,FANG Yaodong1,HAN Yanfang1,QIAN Zhenxing2,QIN Chuan1 1.Sch

4、ool of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China 2.School of Computer Science,Fudan University,Shanghai 200433,China Abstract:The advent of social media has brought about significant changes in peoples lives.While social media

5、 allows for easy access and sharing of news,it has also become a breeding ground for the dissemination of fake news,posing a serious threat to social security and stability.Consequently,researchers have shifted their focus towards 收稿日期：20221017；修回日期：20230526 通信作者：秦川，基金项目：国家自然科学基金（U20B2051，62172280）

6、；上海市自然科学基金（21ZR1444600）Foundation Items:The National Natural Science Foundation of China(U20B2051,62172280),The Natural Science Founda-tion of Shanghai(21ZR1444600)引用格式：高国鹏,房耀东,韩彦芳,等.面向虚假新闻检测的社交媒体多模态数据集构建J.网络与信息安全学报,2023,9(4):144-154.Citation Format:GAO G P,FANG Y D,HAN Y F,et al.Construction of mul

7、ti-modal social media dataset for fake news detec-tionJ.Chinese Journal of Network and Information Security,2023,9(4):144-154.第 4 期高国鹏等：面向虚假新闻检测的社交媒体多模态数据集构建 145 fake news detection.Although several deep learning-based solutions have been proposed,these methods heavily rely on large amounts of supp

8、orting data.Currently,there is a scarcity of existing datasets,particularly in Chinese,and the collected news articles are often limited to the same category.To enhance the detection of fake news,a new multi-modal fake news dataset(MFND)was developed,which comprised Chinese and English news data fro

9、m ten diverse categories:politics,economy,entertainment,sports,international affairs,technology,military,education,health,and social life.The word frequencies and categories of the proposed fake news dataset were analyzed and compared with existing fake news datasets in terms of number of news,news

10、categories,modal information and news languages.The results of the comparison demonstrate that the MFND dataset excels in terms of category information and news languages.Moreover,training and validating existing typical fake news detection methods with MFND dataset,the experimental results show an

11、improvement of approximately 10%in model performance compared to existing mainstream fake news datasets.Keywords:social media,fake news detection,multi-modal,multi-category,dataset 0 引言近年来，随着互联网的快速发展以及微博、推特等社交媒体的不断兴起，人们获取新闻的方式发生着巨大变化，越来越多的人开始通过社交媒体来阅读新闻。相较于传统报刊上的新闻，社交媒体上的新闻可以提供更加丰富的视听信息，同时凭借实时性高、成本

12、低等优势，社交媒体逐渐成为新闻传播的主要途径。各大主流新闻媒体纷纷开设社交媒体账号，在社交媒体上进行新闻播报。值得注意的是，社交媒体缺乏完善的审核机制，任何媒体和个人都可以通过社交媒体进行“新闻”的制作和传播，这使得社交媒体上新闻的可靠性难以得到保证，社交媒体上呈现出真假新闻并存的局面，因此对于社交媒体上的虚假新闻检测成为研究的热点问题。在虚假新闻的研究中，虚假新闻被赋予了不同的研究含义。一部分研究人员将人为的并且可以被证实为虚假的新闻当作虚假新闻来进行研究1；另一部分研究人员将讽刺性或者夸大性的新闻当作虚假新闻2。为了更加明确地界定虚假新闻，Shu 等3指出虚假新闻是指故意制作、传播并且可以

13、被证实为虚假的新闻文章或新闻报道。虚假新闻的传播有着严重的社会危害，严重影响着人们的生活和社会的稳定。美国皮尤研究中心（Pew Research Center）的调查报告指出，越来越多的美国用户通过社交媒体来阅读新闻。大约 2/3 的美国成年人认为，虚假新闻会对当前问题和事件的基本事实造成很大的误导。美国麻省理工学院的一项研究4表明，虚假新闻在社交媒体上的传播速度是真实新闻的 6 倍。为了最大限度地减小虚假新闻带来的有害影响，需要在新闻传播的前期进行假新闻的检测和辟谣。在早期，社交媒体还处于发展阶段，社交媒体上的新闻数据较少，可以依靠专家系统对新闻进行人为判定。随着互联网的快速发展，社交媒体上

14、的新闻数量以指数级趋势增加，完全依靠人工进行虚假新闻的判定，无法及时、高效地从大量的新闻中筛选出虚假新闻。近年来，随着机器学习和深度学习的不断发展和完善，人工智能逐渐被应用到虚假新闻检测的研究中。新闻的文本内容传递着大量信息，针对新闻文本特征的提取出现在很多的研究中5-7。Ma 等8考虑到新闻的时序性特点，利用循环神经网络（RNN）对动态范围内的新闻进行特征提取来实现虚假新闻检测。鉴于卷积神经网络（CNN）在图像领域的优异表现，Yu 等9使用 CNN 进行文字的语义特征提取，更好地学习到了其他场景下信息的特征表示。Bian 等10认为图神经网络可以学习到更高层次的特征，有利于虚假新闻的检测，为

15、此提出了一种双向的图神经网络模型来进行虚假新闻检测。相较于纯文本的新闻，含有图片等多媒体数据的新闻更容易吸引人们的眼球，多模态新闻逐渐成为新闻的主要方式。多模态新闻有着丰富的视觉特征，可以为虚假新闻检测提供额外的特征表示，许多虚假新闻检测方法开始融合文本特征和图片特征11-13。例如，Jin 等14使用 LSTM 和预训练的 VGG 网络进行文字和图片特征的提取146 网络与信息安全学报第 9 卷来开展虚假新闻检测任务；Tuan 等15为了更好地融合多模态信息，使用基于 Transformer 的双向编码器（BERT）模型和预训练的 VGG 网络作为文本特征和图片特征提取器，并且将多个注意

16、力机制层堆叠进行多模态特征的融合。随着针对虚假新闻检测问题的不断深入研究，许多虚假新闻检测数据集被构建起来用于进行学习。这些数据集大部分是单模态的（纯文本的新闻），多模态的虚假新闻检测数据集相对较少。早期通过爬取推特、新浪微博等社交媒体网站构建出的多模态数据集中只保存了图片的链接，这些链接可能已经失效而无法获取到相关图片，这让数据集的完整性不能得到保证。目前现有的多模态数据集中，大多是与政治、经济相关的新闻，数据集中的新闻类别比较单一，并且部分多类别的数据集并未对类别信息进行标注。在生成对抗网络16技术的不断发展和完善下，DeepFake 等深度伪造技术也在不断进步，多模态下的虚假新闻造假方式

17、又更进一步。人们可以利用DeepFake 技术生成与虚假新闻内容相关的图片，并且 DeepFake 技术使用的门槛逐渐降低。不同于传统的篡改，DeepFake 生成的篡改图片更加自然。为了促进虚假新闻检测，尤其是多模态的虚假新闻检测的发展，本文基于社交媒体和事实核查网站构建了一个新的多模态的虚假新闻数据集：MFND（multi-modal fake news dataset）。MFND 由 10 000 条新闻组成，包含 5 000 条真实新闻、5 000 条虚假新闻以及与新闻相关的近50 000 张图片。为了丰富新闻数据的类别信息，MFND 中收集了 10 个类别的新闻数据，各个类别的新闻数

18、据量不均等，为了应对越来越复杂的虚假新闻形式，收集了一些由深度伪造技术生成的虚假新闻。同时，MFND 中不仅包含中文新闻，还收集了英文新闻，可以被用于多语态的虚假新闻检测。1 相关数据集虚假新闻的检测有着不同的策略和方法，研究人员根据研究所需构建相对应的虚假新闻数据集。总体来说，现有的虚假新闻检测数据集可以分为单模态数据集和多模态数据集两个大类，表 1展示了现有的单模态和多模态虚假新闻数据集，其中标签数量表示新闻是被二分类标记（真、假两个标签）还是被多分类标记（真、大部分真、假等多个标签）的。表 1 现有的单模态和多模态虚假新闻数据集 Table 1 Existing unimodal an

19、d multimodal fake news datasets 数据集分类数据集名称年份标签数量单模态 CREDBANK17 2015 2 BuzzFeedNews18 2016 4 LIAR19 2017 6 NaistCovid20 2020 2 FakeCovid21 2020 2 CrossCOVID1922 2021 2 多模态 MediaEval23 2016 2 Weibo14 2017 2 FacebookHoax24 2017 2 TI-CNN25 2018 2 Fakeddit26 2020 2、3、6 MM-COVID27 2020 2 1.1 单模态数据集单模

20、态数据集由纯文本或者纯图片的新闻数据构成，主要为模型提供丰富的文字特征。为了对社交媒体上虚假新闻进行研究，2015 年，Mitra等17构建了一个大规模、无偏见的数据语料库CREDBANK，主要包含新闻正文、话题、事件和相关专家的可信度判断。CREDBANK 中包含6 000万条推文，对应1 000多个真实的新闻事件，每个新闻事件都由多个专门的工作人员进行可信度标注，并且标注了判定的理由。Facebook 在2016 年创建了 BuzzFeed News 虚假新闻数据集，该数据集收集了美国多个社交媒体账号在Facebook 上发布的 2 282 个帖子，数据集中不仅包含正文内容，还包含新闻的分

21、享数、评论数等社交上下文信息。对于数据的标注，Facebook 用人工对这些新闻进行多层次的新闻判定。Potthast等18对该数据集进行了进一步扩充和丰富，设置了 3 种形式的真假标签。数据集的大小在一定程度上影响着深度学习模型的检测准确度，Wang19构建了一个大型的、公开的、纯文本的虚假新闻检测数据集 LIAR。LIAR 数据集中的数据主要来自事实核查网站 PolitiFact，这个网站中的新闻都是来自真实场景，包括推特上的帖子、电视辩论、第 4 期高国鹏等：面向虚假新闻检测的社交媒体多模态数据集构建 147 Facebook 帖子、新闻发布会和电视广告等。Wang等从 PolitiF

22、act 上收集了十年间的 12 836 条新闻数据。出于真实性考虑，作者将 LIAR 的数据集设置了 6 个细粒度的标签，分别为 pants-fire、false、barely-false、half-true、mostly-true 和 true；同时考虑到数据的均衡性，这 6 类标签的新闻数量基本均等。为了应对网络上所产生的谣言，许多针对纯文本虚假新闻数据集被构建起来20-22。1.2 多模态数据集多模态新闻是指新闻中含有除文字信息外其他模态的信息（如图片信息、视频信息等），可以为虚假新闻检测模型提供额外的特征。Boididou等23在 2016 年提出了一个多模态的虚假新闻数据集，数据集

23、中包含 6 225 个真实的推特新闻和 9 596 个虚假的推特新闻，同时包含与这些新闻相关的 193 个真实事件和 220 个被篡改或者滥用的图片与视频案例。Jin 等14通过收集新浪微博平台上的数据构建了一个多模态的中文虚假新闻数据集，数据集中包含约 40 000 条多模态新闻数据。该数据集中的虚假新闻来自微博官方平台对20122016 年所验证过的虚假新闻帖子，真实新闻主要来自中国主流媒体的新闻播报。微博数据集不仅提供了文字和图片信息，还提供了新闻的社交背景信息。许多多模态虚假新闻数据集规模较小24-25，为了提供一个有效而全面的数据集，Nakamura 等26在 2020 年提出了 F

24、akeddit 数据集，收集了 100 多万条来自多个类别的新闻样本，并对新闻标注了 3 种形式的真伪性标签。针对社交媒体上广泛的谣言，Li 等27于 2020 年提出了一个多模态、多语种、多维度的虚假新闻数据集，数据集包含 6 种语言的 3 981 条虚假新闻和 7 000 多条真实新闻。2 MFND 本节主要介绍面向社交媒体的虚假新闻检测数据集 MFND 构建流程（如图 1 所示），包括新闻数据的收集、处理与存储以及对数据集的相关分析。2.1 数据的收集社交媒体是人们用来进行创作和分享的网络平台；事实核查是对存疑的新闻信息进行核验，并撰写核验报告，而事实核查网站是用来展示需要被核验或者已

25、经被核验过的新闻。这些平台和网站上有大量的新闻数据可以被用来进行研究。本文收集了新浪微博、推特等社交媒体和 Snopes 等事实核查网站上的新闻数据来构建 MFND。对于社交媒体网站，收集了 2019年 1 月至 2021 年 12 月这 3 年间的新闻数据；对于事实核查网站，收集 2021 年、2022 年这两年的新闻资讯。社交媒体基本开放了可使用的数据接口（API），利用这些 API 可以正确合法地获取新闻数据。社交媒体网络和事实核查网站设置了不同的约束条件进行数据收集：社交媒体上的新闻，按照时间和新闻类别或者关键词进行新闻的采集；事实核查网站上的新闻，按照新闻类别进行新闻样本的收集。社交

26、媒体和事实核查网站上的新闻主要收集新闻样本中的标题、来源、正文以及新闻中可能存在的图片数据。由于根据新闻的链接进行新闻数据的存储，部分链接会存在资源不可获取的情况，为了数据收集的正常进行、方便后续处理，统一将异常内容保存为“异常 404”。随着国家以及平台对谣言的整治，虚假新闻尤其是中文的虚假新闻被辟谣后平台上的新闻会被撤销，导致可获取的虚假新闻较少，为了平衡真实图 1 MFND 构建流程 Figure 1 The flowchart of construction for MFND 148 网络与信息安全学报第 9 卷新闻和虚假新闻，对公开的多模态数据集中的小部分新闻进行翻译或者抽取。

27、2.2 数据的处理与存储（1）文本数据的处理初始收集到的新闻样本中包含大约两万条的新闻数据，这些原始数据包含收集到的异常数据，还有部分无法下载新闻所对应的图片，需要对这些原始数据进行进一步的处理。首先下载新闻中的图片链接，并将图片链接无法下载的对应新闻标记为异常数据。然后对数据进行过滤，剔除数据集中新闻内容为“异常 404”以及被标记为异常的新闻数据。表情符号因其简洁明了、形象有趣等特点，经常出现在社交媒体的推文中。对于这类特殊的语言符号，中文新闻下的表情符号使用“【表情】”这一字符串来进行文本替换，英文新闻下的表情符号使用“emoji”字符串来进行文本替换。（2）图片数据的处理社交媒体会

28、对用户上传的图像生成一组唯一的字符串作为标记。本文在对图像数据进行下载时，使用这组字符串作为图像的名称保存到本地，这会导致数据集中出现许多重复的图像。本文参考 Jin 等14构建微博数据集的方法，使用基于局部感知哈希（LSH）的近似复制图像检测算法28对数据集中重复的图像进行删除。虚假新闻中的图像大部分清晰度较差，本文使用百度智能云提供的图像清晰度增强模型，去除图像中的噪点、优化图像的纹理，实现图像清晰度的提升。对于数据集中尺寸较小的图像，使用百度智能云的图像无损放大方法，在不改变图像质量的前提下，对图像的长宽进行放大。（3）真实新闻和虚假新闻的标注新华网、央视网、人民日报等权威媒体机构在发

29、布新闻之前都会对内容事先核实，它们发布的新闻具有很高的可信度。因此将社交媒体收集到的新闻数据按照新闻来源进行数据抽取，对于来源是权威媒体或者官方媒体的新闻，将它们标记为真实新闻。社交媒体本身就带有简单的新闻检测功能，会将被举报为虚假的新闻进行核实和标注，对于这部分数据，将它们标注为虚假新闻。事实核查网站上的新闻经过了人工的核查，新闻的真伪都被进行了标注。网站中主要包含新闻的标题、新闻的正文、新闻中可能存在的图片、新闻判定的阐释、新闻的真伪性和新闻报道的原始内容。事实核查网站中不是所有新闻都会被判定为真实新闻或者虚假新闻，部分新闻可能会被标记为“极有可能真实”等标签。在对事实核查网站收集到的新闻

30、数据进行标签过滤时，只保存真实和虚假这两个标签的新闻。由于在数据收集时，是按照新闻类别来获取社交媒体和事实核查网站上的新闻的，所以按照收集的类别信息对真假新闻进行类别信息的标注；对于类别缺失的部分，使用文本分类模型对该新闻进行分类。（4）数据的存储 MFND 中的每条新闻数据包含了新闻的标题、新闻的来源、新闻的正文、图片的名称、新闻的类别和新闻的真伪标签这 6 部分的内容。新闻的来源字段说明了新闻的发布方，如人民日报；对于个人用户发布的新闻，使用用户的昵称作为新闻的来源。图片的名称字段中，只保存图片名不包含图片的存储路径，如果新闻中出现了多张图片，使用分号对图片名称进行拼接；如果新闻中不存在图

31、片，将该字段设置为空。新闻的类别字段说明了新闻所属的类别，MFND 中收集了娱乐、经济、政治、国际、科技、军事、社会生活、教育、健康、体育这 10 个类别的新闻，其中英文新闻只包含娱乐、经济、政治、科技、军事、社会生活、教育、健康、体育这 9 个类别。新闻的真伪性字段只有两个标签真实、虚假。MFND中不仅包含了多模态的新闻数据（文本+图片），还包含了单模态的新闻数据（纯文本和纯图片）。对于纯文本或者纯图片的新闻数据，新闻的正文、类别、真伪3 个字段一定不为空。2.3 数据集的分析表2展示了MFND的基本构成，它由10 000条中文新闻和英文新闻组成，其中中文新闻的数量为 8 000 条，英

32、文新闻的数量为 2 000 条，真实新闻和虚假新闻所占的比例为 1:1。MFND 是一个多模态、多类别的虚假检测数据集，包含了政治、经济、娱乐、国际、科技、军事、社会生活、教育、健康和体育这 10 个类别下的新闻。从图 2可以看出，MFND 中每个类别的新闻数量（纯文第 4 期高国鹏等：面向虚假新闻检测的社交媒体多模态数据集构建 149 字新闻和多模态新闻）不一致，新闻数据主要集中在娱乐和社会生活这两个类别中。表 2 MFND 新闻数量分析 Table 2 Analysis of the number of news in the MFND 语言真实新闻虚假新闻中文 4 000 4 0

33、00 英文 1 000 1 000 图 2 MFND 中新闻类别的统计分析 Figure 2 Statistical analysis of news categories in the MFND 为了可视化数据集中真实新闻和虚假新闻的词频分布，对 MFND 中的所有中文新闻进行了词频分析。根据中文常用停用词表对新闻内容进行过滤，MFND 中真实新闻和虚假新闻的 10 个高频词汇展示如下。1)虚假新闻：孩子、中国、小女孩、帮忙、转发、朋友、扩散、附近、信息、大人。2)真实新闻：中国、公司、发展、美国、电影、企业、市场、进行、生活、问题。3)整个新闻数据集：中国、公司、发展、美国、孩子、电影、企

34、业、市场、生活。从中可以发现，真实新闻和虚假新闻在一定程度上具有相关性。3 数据集对比验证 3.1 数据集对比本文所构建的虚假新闻数据集的主要优势是新闻的类别信息丰富，数据集由娱乐、经济、政治、国际、科技、军事、社会生活、教育、健康和体育这 10 个常见类别的新闻组成，并且对每一条新闻的类别信息进行标注和保存。与其他大规模的虚假新闻数据集相比，MFND 的规模较小，同时没有包含新闻的社交上下文信息，社交上下文信息指的是新闻的用户评论、新闻的分享数、新闻的转发数等其他额外有效信息。这些问题是MFND 的主要缺点，也给 MFND 的进一步改进提供了空间。本文选取了现有的 6 个多模态数据集，分别

35、是 Weibo14、MediaEval23、FacebookHoax24、TI-CNN25、Fakeddit26和 MM-COVID27，与MFND 进行量化比较，具体结果如表 3 所示。相较这 6 个多模态数据集，MFND 在新闻的类别信息上有一定的优势。在这 6 个多模态数据集中，MM-COVID 数据集提供了 6 种语言的新闻数据但是缺少中文新闻，其他 5 个多模态数据集只提供了单一语言的新闻数据，而 MFND 中包含了中文和英文两种语言的新闻。MediaEval、Weibo 和Fakeddit 这 3 个数据集的新闻数据是对多个类别下的新闻进行收集的，但是数据集中并没有进行相应的标注和

36、说明。3.2 数据集验证为了有效检验 MFND 的性能，选择 5 种单模态虚假新闻检测和多模态虚假新闻检测方法，在MFND 和 Wang 等29开源的 Weibo 数据集（Weibo_Wang）上进行对比。（1）单模态虚假新闻检测方法 TextCNN30：TextCNN 使用简单的卷积神经网络来实现句子级别的语言分类，文本在输入之前需要使用预训练的语言模型进行分词操作。为了适用于中文虚假新闻分类，本文调整了模型的输入和输出，用 TextCNN 来进行中文虚假新闻的检测。tanh-RNN8：Ma 等的这项工作使用循环神经网络对社交媒体上一段时间范围内的新闻进行文150 网络与信息安全学报第

37、9 卷本特征的提取。由于 MFND 中没有保存新闻的时间信息，本文将每条新闻当作一个独立个体，忽略新闻的时间因素。RNN 具体的过程如式(1)和式(2)所示。1tanh()ttthxhbUW(1)ttohcV(2)其中，U、W、V 分别表示输入层到隐藏层、隐藏层到隐藏层和隐藏层到输出层的权重矩阵；b 和 c表示偏移量；tanh()表示非线性的激活函数；tx、th、1th和to 分别表示输入、t 时刻的输出、上一时刻的输出和最终输出。BERT31：该模型因其强大的语言学习能力，成为当下最热的自然语言处理模型。Devlin等31指出使用预训练的BERT模型进行微调，可以搭建出效果优异的语言分类模

38、型。本文参考这一建议，使用预训练的BERT模型进行微调，搭建了一个简单的文本二分类模型，将BERT作为主干网络来进行新闻文本特征的提取，然后加上一个全连接层来得到二分类任务的输出，处理过程如式(3)和式(4)所示。BERT(Embedding()Hx(3)()YfHbW (4)其中，Embedding()表示对输入进行预处理，H表示BERT模型的输出，f 表示全连接层，W 表示全连接层中的权重矩阵，Y 表示模型的输出。（2）多模态虚假新闻检测方法 EANN29：Wang等的这项工作是基于事件类别的，主要包含3个模块：多模态特征提取模块、虚假新闻判断模块、事件判别模块。多模态特征提取模块使用Te

39、xtCNN来获取文本特征，使用预训练的VGG-19来获取图片特征。其提取出特征通过简单叠加给两个判断器进行判断。由于本次对比不做事件类别的判断，在对比实验中去除了事件判别模块，只保留了虚假新闻判别模块，如式(5)式(7)所示。TtfTe(*)RWR(5)VvfVgg(*)RWR (6)FTVRRR(7)其中，TeR 和VggR分别表示TextCNN模型处理后得到的文本特征表示和VGG处理后的图片特征表示；()表示全连接层，tfW 和vfW 表示全连接层中的参数权重；表示对特征向量进行拼接；TR、VR 和FR 表示文本特征、图片特征以及文本和图片融合特征。SpokeFake32：该模型将新闻中的

40、文本内容和图片作为输入，用来进行虚假新闻的判断。它使用预训练的VGG-19网络进行图片特征的提取，使用预训练的BERT模型来提取新闻的文本特征，并对获得的多模态特征进行简单的融合。残差网络（ResNet50）可以更好地提取到图片的深层特征，本文修改了SpokeFake模型架构，使用ResNet50替换原先的图片特征提取的主干网络，式(8)和式(9)为数据处理过程。(BERT()fMTWx(8)(ResNet50()fGVWx(9)其中，Mx、Gx 分别表示文本特征提取模块的输入、图片特征提取模块的输入；fT、fV表示提取到的文本特征和图片特征；()表示全连接层，W 表

41、示全连接层中的参数权重。表 3 MFND 和现有的多模态虚假新闻数据集对比 Table 3 Comparison of our MFND with existing multi-modal fake news datasets 数据集真实新闻虚假新闻模态信息类别数量社交上下文语种 Weibo14 4 749 4 779 文本+图片包含 1 MediaEval23 6 225 9 596 文本+图片不包含 1 FacebookHoax24 6 577 8 923 文本+图片 1 包含 1 TI-CNN25 11 941 8 074 文本+图片 1 不包含 1 Fakeddit26

42、 527 049 628 501 文本+图片包含 1 MM-COVID27 7 192 3 981 文本+图片 1 包含 6 MFND 5 000 5 000 文本、图片、文本+图片 10 不包含 2 第 4 期高国鹏等：面向虚假新闻检测的社交媒体多模态数据集构建 151 （3）虚假新闻检测评价指标在评价指标方面，使用分类任务中常用的评价指标来评价各个方法在这两个数据集上的性能表现。这些指标具体定义如下。准确率（Accuracy）表示模型预测正确的样本数量（预测为真的正确样本和预测为假的正确样本数量之和）占样本总量的百分数，具体的定义如式(10)所示。TPTNAccuracyTPFNFP

43、TN(10)精确率（Precision）表示在预测为正样本的结果中预测正确的数量所占百分比，式(11)为其具体定义。TPPrecisionTPFP(11)召回率（Recall）表示预测为正样本的数量占原始正样本数量的百分比，它的定义如式(12)所示。TPRecallTPFN(12)F1分数（F1-score）指标兼顾了精确率和召回率，是两者的调和平均数，式(13)展示了其具体定义。2PrecisionRecall1PrecisionRecallF(13)其中，TP（True Positive）表示样本本身为正样本预测结果也为正样本的样本数量；TN（True Negative）表示样本预测结果为

44、负样本但是实际上是正样本的样本数量；FP（False Positive）表示样本被判定为正样本但事实上是负样本的样本数量；FN（False Negative）表示样本被判定为负样本但是实际上是正样本的样本数量。这些分类任务中的指标，值越高表示模型的性能越好。数据集方面，按照八二法则进行数据集的划分，数据集中80%的数据用来进行模型训练，20%的数据用作最后的性能评估。（4）实验参数设置 MFND和Weibo_Wang数据集29的对比主要关注中文新闻的检测性能。上面的对比方法中，有些模型是针对英文虚假新闻检测设置的，如在输入预处理部分，分词模型是针对英文进行短语分割提取，这并不适用于中文新闻。为

45、了让这些方法适用中文新闻的虚假新闻检测，将这些对比方法的预处理部分统一更换成适用于中文的分词模型和停用词处理或词嵌入工具。这些对比方法的其他参数参考了相应的论文进行设置，其中，词向量大小表示文本被转化成向量后的维度大小；优化器是一种优化策略，用来管理和更新模型中可学习参数的值，具体的参数设置如表4所示。所有的实验都是在Ubuntu 20.04系统和NVIDIA 3080Ti的显卡上进行训练和测试的，主要使用的框架是Pytorch 1.11和Tensorflow 2.8。表 4 不同虚假新闻检测方法的参数设置 Table 4 Parameter settings for different fa

46、ke news detection methods 检测方法批量大小优化器词向量大小tanh-RNN8 50 自适应学习 100 TextCNN30 50 随机梯度下降 768 BERT31 256 自适应矩估计 768 EANN29 100 自适应矩估计 32 SpokeFake32 256 自适应矩估计 768 （5）验证结果表5展示了多种虚假新闻检测方法在不同数据集上的检测效果，可以看出，不管是单模态检测方法还是多模态检测方法，相较Weibo_Wang数据集，在MFND上都可以达到一个很好的检测效果。对于单模态的3种检测方法tanh-RNN、TextCNN和BERT，它们在MFND

47、上可以达到93%左右的检测准确度，其中BERT方法得到的检测效果最好。图3(a)图3(c)分别展示了这3种单模态方法在MFND上的混淆矩阵，图中真实标签和预测标签的0表示真实新闻、1表示虚假新闻。从混淆矩阵图中可以看出，总体来说，BERT方法在真实新闻和虚假新闻的预测性能上优于tanh-RNN和TextCNN这两种方法。针对tanh-RNN和TextCNN这两种检测方法，TextCNN在MFND上的预测性能更优，但是tanh-RNN对于虚假类别的新闻检测效果比TextCNN好。图4(a)、图4(b)为EANN和SpokeFake这两种多模态方法在MFND上的训练和验证准确

48、度，由图可以看出，在经历15轮次之后，模型的训练和验证准确度趋于稳定。对于单152 网络与信息安全学报第 9 卷模态方法而言，MFND中每个新闻样本的长度相对较长，这使得可以为RNN类或者CNN类模型提供更好的文本特征。多模态的虚假新闻检测方法，因为其内容特征的丰富性，可以提供更多有用的信息用来进行判断，总的来说，多模态虚假新闻检测优于单模态虚假新闻检测。从表5可以看出，MFND可以被用来对现有的中文虚假新闻数据集进行补充，从而得到更好的模型效果。由于该数据集中还包含部分英文新闻，使用BERT方法对MFND中的英文新闻进行检测，同时选取了英文虚假新闻数据集LIAR18中的部分数据进行对比和

49、测试。对于BERT方法的具体处理如下；批量大小为32，分词模型的最大长度为128。在MFND上，BERT方法可以达到0.67的准确度而在LIAR数据集上只有0.56的准确度。相较中文新闻的检测，MFND英文新闻检测的结果相对较差，可以作为其他数据集的补充。4 结束语本文研究并探讨了多模态虚假新闻检测以及多模态数据集相关的问题，构建了一个新的用于社交媒体的多模态虚假新闻数据集。本文所构表 5 多种虚假新闻检测方法在不同数据集上的检测效果 Table 5 The performance of multiple fake news detection methods on different da

50、tasets 方法 MFND Weibo_Wang 数据集29 Accuracy Precision Recall F1-scoreAccuracy Precision Recall F1-score 单模态 tanh-RNN8 0.917 0.963 0.853 0.905 0.575 0.523 0.415 0.463 TextCNN30 0.931 0.924 0.934 0.933 0.875 0.812 0.921 0.865 BERT31 0.980 0.987 0.975 0.981 0.858 0.888 0.868 0.878 多模态 EANN29 0.982 0.969 0

展开阅读全文