基于多头注意力卷积Transformer的假新闻检测.pdf

资源描述

1、Hans Journal of Data Mining 数据挖掘数据挖掘,2023,13(4),288-298 Published Online October 2023 in Hans.https:/www.hanspub.org/journal/hjdm https:/doi.org/10.12677/hjdm.2023.134029 文章引用文章引用:张亚立,李征宇,孙平.基于多头注意力卷积 Transformer 的假新闻检测J.数据挖掘,2023,13(4):288-298.DOI:10.12677/hjdm.2023.134029 基于基于多头注意力卷积多头注意力卷积Transfo

2、rmer的的假新闻检测假新闻检测张亚立张亚立，李征宇，孙李征宇，孙平平沈阳建筑大学，计算机科学与工程学院，辽宁沈阳收稿日期：2023年8月18日；录用日期：2023年9月18日；发布日期：2023年9月26日摘摘要要随着通信技术和社交媒体的迅速发展，假新闻的广泛传播已经成为一个严重的问题，对国家和社会造成随着通信技术和社交媒体的迅速发展，假新闻的广泛传播已经成为一个严重的问题，对国家和社会造成了巨大的损失。因此，检测假新闻已经成为备受关注的研究领域。虽然卷积神经网络了巨大的损失。因此，检测假新闻已经成为备受关注的研究领域。虽然卷积神经网络(CNN)在局部特征在局部特征提取方面

3、效果出色，但其对顺序依赖和长距离依赖的处理能力较弱。因此，本文提出了一种注意力卷积提取方面效果出色，但其对顺序依赖和长距离依赖的处理能力较弱。因此，本文提出了一种注意力卷积Transformer模型，结合了模型，结合了Transformer架构和架构和CNN提取局部特征的优点，并实现高效的假新闻检测。提取局部特征的优点，并实现高效的假新闻检测。本文引入了一种新的注意力机制本文引入了一种新的注意力机制多头注意力卷积机制，通过卷积过滤器将复杂的词空间转换为信息多头注意力卷积机制，通过卷积过滤器将复杂的词空间转换为信息更丰富的卷积过滤器空间，从而捕捉重要更丰富的卷积过滤器空间，从而捕捉重要的的n-g

4、ram信息。该模型不仅能够捕捉局部和全局的依赖关系，信息。该模型不仅能够捕捉局部和全局的依赖关系，还能保留词语之间的序列关系。实验结果在两个真实数据集上表明，多头注意力卷积还能保留词语之间的序列关系。实验结果在两个真实数据集上表明，多头注意力卷积Transformer在假在假新闻检测任务中的准确率、召回率和新闻检测任务中的准确率、召回率和F1值明显高于值明显高于TextCNN、BiGRU和传统的和传统的Transformer模型模型。关键词关键词假新闻检测假新闻检测，注意力卷积注意力卷积，Transformer Fake News Detection Based on Multi-Head

5、Attention Convolution Transformer Yali Zhang,Zhengyu Li,Ping Sun School of Computer Science and Engineering,Shenyang Jianzhu University,Shenyang Liaoning Received:Aug.18th,2023;accepted:Sep.18th,2023;published:Sep.26th,2023 Abstract With the rapid development of communication technology and social m

6、edia,the widespread dis-semination of fake news has become a serious problem,causing huge losses to the country and so-张亚立等 DOI:10.12677/hjdm.2023.134029 289 数据挖掘 ciety.Therefore,detecting fake news has become a research area that has attracted much atten-tion.Although the convolutional neural netw

7、ork(CNN)is excellent in local feature extraction,its ability to deal with sequential dependencies and long-distance dependencies is weak.Therefore,this paper proposes an attentional convolution Transformer model,which combines the advan-tages of Transformer architecture and CNN to extract local feat

8、ures,and achieves efficient fake news detection.This paper introduces a new attention mechanismmulti-head attention convo-lution mechanism,which transforms the complex word space into a more informative convolution filter space through convolution filters,thereby capturing important n-gram informati

9、on.The model not only captures local and global dependencies,but also preserves the sequential rela-tionship between words.Experimental results on two real datasets show that the accuracy,recall and F1 value of multi-head attention convolution Transformer in fake news detection tasks are significant

10、ly higher than TextCNN,BiGRU and traditional Transformer models.Keywords Fake News Detection,Attention Convolution,Transformer Copyright 2023 by author(s)and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License(CC BY 4.0).http:/creativecommons.org/li

11、censes/by/4.0/1.引言引言新闻是人们了解外界信息的主要渠道，新媒体时代下，繁杂多样的社交平台促使新闻的传播环境、传播形式和传播内容发生巨大变化，社交媒体在给人们获取信息便利的同时，也成为虚假新闻恣意传播的渠道。虚假新闻是由专业媒体发布，通过操控舆论来达成某种政治或经济目的的手段。虚假新闻的危害极大，如果不能被及时发现并遏止，极易引起经济衰退和社会动荡，根据 2019 年 CHEQ 和巴尔的摩大学的经济研究报告显示，人类在没有特殊情况的帮助下仅能识别出 54%1的虚假新闻。与此同时，每年由于虚假新闻造成的经济损失高达 780 亿美元2。这一数据揭示了虚假新闻对全球社会和经济的严重

12、影响。在这复杂环境下，为了提高读者对假新闻的防范意识，一些平台，如 Twitter、Facebook、新浪微博3等，会提供信息检测基站来识别假新闻，但这些平台需要花费大量资金聘请领域专家来应对各类假新闻，耗时又耗力。因此，探索更加智能高效的自动化虚假新闻检测方法具有重要意义。早期的虚假新闻检测都会使用机器学习方法对新闻文章进行自动检测。比如，通过研究探索用于区分虚假内容和真实内容的不同文本属性4，研究人员利用这些特征，并使用各种方法训练多种机器学习算法的组合，以实现准确的检测结果。这些研究极大地推进了自动化虚假新闻检测的进程。然而，假新闻内容非常复杂，在使用机器学习方法对假新闻进行检测时，存在

13、着很多的局限性。首先，特征提取是传统机器学习方法的核心环节之一，但对于假新闻来说，其特征往往是复杂而难以捉摸的。传统方法需要依靠人工设计和选择特征来描述新闻文章，然后将这些特征作为输入传递给机器学习模型。但是，对于假新闻5来说，可以利用的特征可能并不明显或一致，因此提取出有效的特征变得非常困难。例如，假新闻可能使用与真实新闻类似的词汇和句法结构6，或者通过掩盖真相和错误引用来迷惑读者，这些特征并不容易被机器学习模型捕捉到。其次，数据不平衡也是一个常见的问题7。由于真实新闻的数量普遍远远大于假新闻的数据量，机器学习模型可能更加倾向于预测为真实新闻。这会导致模型对假新闻的学习不足，容易将假新闻误分

14、类为真实新闻。最后，语义复杂性也是传统机器学习方法在假新闻检测中的一个挑战8。假新闻往往通过歪曲事实、引导误导或语义模糊来误导读者。传统机器学习方法在处Open AccessOpen Access张亚立等 DOI:10.12677/hjdm.2023.134029 290 数据挖掘理语义复杂性时存在局限性，难以准确理解和识别假新闻中的潜在含义。传统方法通常依赖于基于统计的模式匹配，而缺乏对语义和上下文的深入理解。针对现有研究存在的问题，本文提出了一种新的注意力机制多头注意力卷积机制，其利用卷积过滤器的语义从复杂的词空间转换为信息更加丰富的卷积过滤器空间，去捕获其中重要的 n-gram。注意

15、力卷积机制不仅能捕获局部和全局的依赖关系，而且还能保留词语之间的序列关系或者说先后关系；我们使用我们提出的多头注意力卷积 Transformer 作为假新闻分类器，在两个真实的数据集上进行真假新闻检测。实验结果表明，我们所提出的多头注意力卷积 Transformer 在每个数据集上都表现出了很优异的效果。与现有的 TextCNN，BiGRU 和传统的 Transformer 相比，我们的模型提高了检测的准确性。本文主要贡献总结如下：1)我们提出的多头注意力卷积机制充分利用了卷积过滤器的语义，简化了对于分类所需的 n-gram特征的提取和优化。2)多头注意力卷积机制保持了 CNN 的最大池化(M

16、axPooling)功能，它不仅能够保留序列位置信息，而且还能捕获局部特征和全局特征。3)我们在两个真实的数据集上的大量实验表明：多头注意力卷积 Transformer 在两个真实数据集上的表现优于现有的假新闻检测模型。2.相关工作相关工作近年来，研究者开始利用深度学习模型如基于门控循环单元(Gated Recurrent Unit,GRU)和基于卷积神经网络(Convolutional Neural Network,CNN)的模型进行假新闻检测9。Wang 等人10使用文本特征和元数据来训练各种机器学习模型，作者使用卷积层捕捉元数据向量之间的依赖关系，通过最大池化层将文本表示与来自双向长短

17、期记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)的元数据文本表示串联进行假新闻检测。Yang 11等人使用了 CNN 模型来进行假新闻分类，CNN 是一种特殊的前馈神经网络，其卷积层与池化层相互交织。对于自然语言处理(Natural Language Processing,NLP)，CNN 中的卷积核可以被视为 n-gram 提取器，将每个位置的 n-gram 转换为显示其与滤波器相关性的向量。在池化操作的帮助下，可以捕获文本与每个过滤器的总体相关性。因此，CNN 在捕获 n-gram 的语义和句法信息以获得更抽象和判别表示方面具有优势。据

18、Li 12研究，CNN 在捕获顺序信息和长距离依赖关系方面相对较弱，因为卷积滤波器有很小的核，通常只关注局部 n-gram，并且池化操作导致位置信息丢失。RNN 以循环处理顺序数据而闻名。然而，由于 RNN 的循环特性，它存在两个问题:梯度消失和并行不友好。许多研究试图通过在 RNN 中加入注意机制来缓解梯度消失问题13。一种叫做 Transformer 的新型神经网络结构解决了这两个问题，完全依靠自我关注来处理长距离依赖，而不需要反复计算。基于Transformer 的神经网络的出现在广泛的 NLP 任务中带来了一系列突破14。特别是，基于 Transformer的预训练语言模型在许多基准数

19、据集中取得了最先进的性能。然而，Transformer 的庞大架构通常需要更多的训练数据、CPU/GPU 内存和计算能力，特别是对于长文本。此外，Transformer 可能会忽略对文本分类任务很重要的相邻元素(即 n-grams)之间的关系15 16。针对上述所提到的CNN和Transformer的局限性，我们提出了一种基于多头注意力卷积Transformer的假新闻检测模型结构。该模型结合了 Transformer 和 CNN 的优点，实现了高效的文本分类。我们采用了传统 Transformer 的架构，包括多头结构和多层网络。每个注意力头通过新的注意力卷积方法，有效地捕捉局部 n-gra

20、m 特征。这里的注意力卷积利用了卷积滤波器的语义，将文本从复杂的词空间转换为信息更丰富的卷积滤波器空间，以简化对于分类所需的 n-gram 的优化。同时，该机制还保留了 CNN的 MaxPooling 功能，既能保留序列位置信息，又能捕获局部和全局特征。实验结果表明，我们提出的张亚立等 DOI:10.12677/hjdm.2023.134029 291 数据挖掘多头注意力卷积Transformer在两个真假新闻数据集的检测中优于TextCNN、BiGRU和传统Transformer模型。3.多头注意力卷积多头注意力卷积 Transformer 模型模型本文提出的多头注意力卷积 Trans

21、former，其采用了卷积机制计算注意力，该注意力可以捕获文本中重要的局部特征和全局特征，抵御混淆信息，增强特征提取能力。图 1 为本文提出的多头注意力卷积机制概念图，该机制由三个独立的子模块组成，分别为通过 n-gram 卷积获取得到的局部特征模块、位置编码模块与全局注意力池化模块，它们能够协同工作并自适应地细粒度化特征。Figure 1.Attention convolution mechanism 图图 1.注意力卷积机制 1)首先将输入的原始新闻(News Content)进行词嵌入表示(Embedding)得到新闻文本的词向量集合。具体执行流程为：新闻文本输入序列设为1234,lTt

22、 t t tt=?，其中it表示为新闻分词后的第 i 个词语，l表示文本序列分词后的长度。将每个it通过 Word2Vec 算法编码成 Embedding 表示iq，得到新闻文本词向量集合1234,lQq q q qq=?,wdiqR其中wd为新闻文本单词 Embedding 的维度。2)接着对文本词向量执行多个卷积过滤器的 n-gram 卷积操作，捕捉句子的关键语义，学习语义单元的特征，得到文本特征映射空间表示，我们认为这个特征映射空间包含了文本中各个 n-gram 局部信息，本文将该特征映射空间作为文本局部特征表示。令卷积核集合1234,mFfffff=?，其中wndifR表示为第 i 个

23、卷积核，n 为卷积核的宽度，m 为卷积核的数量，则每个卷积核维度为,wn d，利用卷积 F 对文本 Q 进行卷积计算，计算公式如式(1)：MQF=(1)其中表示卷积计算，本文采用大小为 n-gram=3 的卷积核，因此单个卷积核的维度扩充至()12Catiiiiqqqq+=+，Cat 表示级联，输出 M 为卷积提取的特征映射集合，其维度为,l m。3)然后对得到的文本特征映射 M 进行最大池化(MaxPooling)操作，以便获得文本中最显著的特征信息，即文本与每个卷积过滤器的总体相关性，通过使用最大池化结果与卷积过滤器进行点乘操作，模型可以更加强调并增强池化结果中的重要特征，进一步提高模型对

24、关键信息的敏感性，本文将该输出结果作为全局特征表示 G，计算公式如式(2)，输出维度为,l m。张亚立等 DOI:10.12677/hjdm.2023.134029 292 数据挖掘 ()MaxPoolingGFM=(2)4)融合局部表征、位置编码特征表示和全局表征，极大提高计算注意力的特征表示，三者融合的输出作为注意力计算的输入，即 Q、K、V 三个参数矩阵，计算公式如式(3)：QKVMGP=+、(3)其中，P 为位置编码特征表示有助于捕获文本中单词的全局特征，输出 Q、K、V 的维度为,l m。5)计算注意力卷积表示 O，将上一步得到的参数矩阵映射到一个多维子空间，在该子空间中，使用自注

25、意机制捕获句子中单词的注意分布，计算公式如式(4)，最后级联多个头的注意力输出。()SoftmaxTiQ KAtt OVd=(4)()()()()()12,hAtt OCat Att OAtt OAtt O=?(5)其中，()iAtt O为第 i 个头的注意力表示，h 为头的数量。6)最后对多个并行头的注意力分布应用全局注意力池化模块，计算整个序列中每个注意力特征图的最大值，从而产生一个固定长度的向量，该向量概括了输入的最显著特征。将该特征与上一步得到的注意力卷积输出拼接，以获得输入文本的最终特征表示，使得模型更加专注于最重要的特征，同时仍然捕获整体注意力的得分，计算公式如式(6)：()()(

26、)()()*,Att OCat Att OMaxPooling Att O=(6)4.实验结果与分析实验结果与分析 4.1.数据集数据集本文使用了两个真实的中文数据集进行了实验，分别是 NAACL 上的中文的事实核查数据集 CHEF(论文作者来自清华大学，剑桥大学和北京师范大学香港浸会大学联合国际学院的 Philip Yu 组)和北京市经济和信息化局&CCF 大数据专家委员会&中科院计算技术研究所提出的开源疫情期间互联网虚假新闻数据集。同时我们又自定义 Python 程序爬取微博平台辟谣网站中所属两个数据集其中 5 个领域的新闻信息，经过数据清洗工作来丰富现有的两个数据集。本文使用数据集简称

27、来表示两个数据集，分别为互联网虚假新闻和事实核查新闻，统计结果如表 1。两个数据集均被划分成训练集、验证集和测试集，比率分别为 60%，20%，20%。假新闻的标记为 1，真新闻的标记为 0。Table 1.Dataset statistics 表表 1.数据集统计数据集变量训练集验证集测试集总数互联网虚假新闻数据集真 4759 1587 1587 7933 假 6682 2227 2227 11,136 总数 11,441 3814 3814 19,069 事实核查数据集真 3523 1174 1175 5872 假 5773 1925 1924 9622 总数 9296

28、3099 3099 15,494 张亚立等 DOI:10.12677/hjdm.2023.134029 293 数据挖掘 4.2.基线模型基线模型本文采用了 TextCNN、BiGRU 和传统的 Transformer 模型与我们提出的多头注意力卷积 Transformer模型进行比较，在两个真实的数据集上进行实验，以此来验证我们模型的有效性。1)TextCNN：TextCNN 是一种常用的文本分类算法，它结合了卷积神经网络(CNN)和词向量模型(Word2Vec)的优势，能够有效地处理文本数据。CNN 的核心思想是捕捉局部特征，对于文本来说，局部特征就是由若干单词组成的滑动窗口，类似于

29、n-gram 17。卷积神经网络的优势在于能够自动地对 n-gram特征进行组合和筛选，获得不同抽象层次的语义信息。TextCNN 通常由以下几个部分组成：Embedding层将文本中的每个词转换成一个向量，以便于输入到 CNN 中。CNN 层包括卷积层、池化层和非线性激活函数。卷积层采用多个不同尺寸的卷积核，提取文本的空间特征；池化层则对文本进行降维，并保留最重要的信息；全连接层将 CNN 的输出映射到分类结果。2)BiGRU：双向门控循环单元(Bidirectional Gated Recurrent Unit,BiGRU)是基于循环神经网络(RNN)的模型，其由单向的、方向相反的 GRU

30、组成的神经网络模型。它们的输出共同决定了最终的输出结果。在每个时刻，输入会同时提供两个方向相反的 GRU，而输出则由这两个单向 GRU 共同决定。基于文本的模型，如 GRU 18和 LSTM 19，在文献20 21中被证明对假新闻检测有效。同时，本文采用了 Chinese Word Vectors 作为中文词向量的表示方法22。3)Transformer：对于 Transformer 来说，需要明确加入位置编码学习 Position Embedding 23。因为自注意力机制(Self-Attention)能够让当前输入的单词和句子中任意单词进行相似度计算，并通过归一化计算得出句子中各个单词

31、对应的权重，然后将权重与各个单词对应的变换后的值相乘累加，得到聚合后的 Embedding向量，然而，在这个过程中没有考虑到单词的位置信息。因此，为了引入位置信息编码，Transformer 给每个单词引入了一个位置编码(Position Embedding)，将单词 Embedding 和其对应的 Position Embedding 相加得到最终的 Embedding。这样 Transformer 的自注意力机制能够很好地捕捉文本中的长距离依赖特征，因为它可以直接对当前输入单词和句子中的任意单词进行相似度计算，从而实现了对长距离依赖特征的提取能力。4.3.实验设置实验设置为了验证本文提出

32、的方法的准确性和有效性，我们在参数设置如表 2 所示的实验环境下进行了一系列实验。Table 2.Experimental environment and configuration 表表 2.实验环境与配置实验环境配置操作系统 64 位 Windows11 CPU Intel Core i5-12500H 内存/GB 16 GPU RTX3050ti 编程语言 Python 3.9 深度学习框架 Keras 2.6.0 4.3.1.模型参数模型参数本文使用的预训练词向量为 300 d 的微博中文(Word+Character+n-gram)，在注意力卷积计算时使用张亚立等 DOI:

33、10.12677/hjdm.2023.134029 294 数据挖掘 300 个核大小为 3 的卷积过滤器。具体模型参数如表 3 所示：Table 3.Model parameters 表表 3.模型参数参数名称参数值词向量维度 300 Encoder 3 注意力卷积头 15 epochs 50 batch_size 64 学习率 1e3 dropout 0.5 激活函数 GelUs 损失函数 Cross-Entropy 优化器 Adam 4.3.2.评估指标评估指标为了评估算法的性能，我们使用了不同的度量标准，它们大多基于混淆矩阵。混淆矩阵是测试集上分类模型性能的表示，它由四个参数组

34、成：真阳性(True Positive,TP)、假阳性(False Positive,FP)、真阴性(True Negative,TN)和假阴性(False Negative,FN)。准确率：Accuracy 通常是最常用的指标，是指被检测系统正确标记为假新闻或真新闻的文章的百分比。为了计算模型性能的准确率，计算公式如式(7)：TPTNAccuracyTPTNFPFN+=+(7)精准率：Precision 表示模型所预测为真新闻的样本中真正为真新闻的比例，计算公式如式(8)：TPPrecisionTPFP=+(8)召回率：Recall 用于衡量模型正确预测为真新闻的能力，计算公式如式(9)：T

35、PRecallTPFN=+(9)F1 值：F1 值代表精确性和召回之间的权衡。它计算两者之间的调和平均值。它同时考虑了假阳性和假阴性观察结果。F1 分数计算公式如式(10)：Precision*Recall1 score2*PrecisionRecallF=+(10)4.4.结果与分析结果与分析 4.4.1.假新闻检测器性能的评估假新闻检测器性能的评估根据表 4、表 5 所示的实验结果，我们对比了基线模型和我们提出的多头注意力卷积 Transformer 模张亚立等 DOI:10.12677/hjdm.2023.134029 295 数据挖掘型(表中表示为 Transformer*)在两

36、个数据集上的表现。实验结果表明，我们提出的多头注意力卷积Transformer 模型相较于其他基线模型表现出了显著的提升。首先，在准确率上，我们的模型相对于其他三个基线模型至少提高了 1%。其次，在召回率上，我们的模型远远超过 TextCNN 模型和 BiGRU 模型，这说明，我们的模型能够较好地捕获真新闻，减少漏掉真新闻的情况。此外，在 Macro F1 Score 上，我们的模型相比于其它 3 个模型高出了 1%以上。Table 4.Evaluation metrics for each model on the internet fake news dataset 表表 4.互联网虚假新

37、闻数据集上各模型的评估指标模型类型 Accuracy(%)Recall(%)F1-score(%)TextCNN 84.72 82.90 83.45 BiGRU 84.69 82.44 83.46 Transformer 84.79 84.61 84.68 Transformer*85.82 85.24 85.52 Table 5.Evaluation metrics for each model on the fact-checking news dataset 表表 5.事实核查新闻数据集上各模型的评估指标模型类型 Accuracy(%)Recall(%)F1-score(%)Text

38、CNN 83.33 82.39 82.68 BiGRU 84.09 82.83 83.31 Transformer 83.60 82.27 82.77 Transformer*84.72 82.90 83.44 综上所述，我们的多头注意力卷积 Transformer 模型相比传统的基线模型在检测真假新闻任务中表现出了明显的优势，这是因为我们的模型结合了多头注意力和卷积操作的优点，具有更强大的特征提取能力。首先，注意力卷积机制使得我们的模型能够同时关注输入序列的不同位置，从而捕捉到不同层次的语义信息。这使得模型能够更好地理解句子或文章中的上下文信息，有助于准确判断是否存在假新闻的特征。通过对输入

39、序列中的局部和全局依赖关系进行考虑，我们的模型能够更全面地理解文本中的信息。其次，卷积操作可以有效地捕捉长距离的依赖关系，能够更好地捕获文本中隐含的关联性，提高了对真假新闻的检测能力。4.4.2.消融实验消融实验为了证实我们所提出的多头注意力卷积 Transformer 模型的有效性，我们进行了进一步的消融实验研究。通过对实验结果的详细分析，我们可以进一步验证我们提出的模型确实可以有效地提高模型的性能和稳定性。从图 2、图 3 中，通过对传统的 Transformer 和我们提出的多头注意力卷积 Transformer 模型(图中的Transformer*)的表现情况进行比较分析，我们可以发

40、现，在保持其他参数一致的前提下，改变注意力计算方法确实可以提升真假新闻检测的准确率。我们提出的注意力卷积 Transformer 模型在 Accuracy 指标上相对传统模型提升了约 1%左右，在召回率和 F1 值上相对原始模型提升了 0.6%以上。这表明我们的注意力卷积 Transformer 模型在真假新闻检测任务中具有一定的优势。其中，文本的注意力卷积计算受到 CNN 在捕获 n-gram 语义和句法信息方面的优势影响，并获得了更抽象和判别性的表示。注意力卷积计算能够有效地张亚立等 DOI:10.12677/hjdm.2023.134029 296 数据挖掘捕获文本中的局部特征，并将

41、其作为计算注意力的方式。相比传统的注意力计算，我们提出的注意力卷积计算方法更适用于处理类似新闻文本这样的较大输入序列数据，并且可以更好地捕获局部依赖关系。这种改变注意力计算方法的方式使得我们的模型能够更准确地理解文本特征，从而提高真假新闻检测的准确率。Figure 2.Experimental results of internet fake news data ablation 图图 2.互联网虚假新闻数据消融实验结果 Figure 3.Experimental results of fact-checking fake news data ablation 图图 3.事实核查虚假新闻数据消

42、融实验结果 5.结语和未来工作结语和未来工作本文研究了假新闻检测问题，提出了一种多头注意力卷积机制的 Transformer 架构，利用了传统的Transformer 和 CNN 的优势，多头注意力卷积 Transformer 能够很好的捕获到卷积过滤器空间中的 n-gram特征，并考虑了局部、全局和位置信息，来获得最终的表征。在两个数据集上的实验结果表明，我们提出的多头注意力卷积 Transformer 模型相比于 TextCNN、BiGRU 以及传统的 Transformer 模型，能够更有效地提高假新闻检测的准确性。为了进一步提升假新闻检测的准确率，我们计划在未来的研究中引入新闻发布者

43、所传达的情感信息。通过结合情感特征和文本内容进行综合分析，我们期望能够进一步优化假新闻检测算法，提高其性能和可靠性。我们将重点关注这一方面，并评估加入情感特征后的效果，以期取得更好的结果。张亚立等 DOI:10.12677/hjdm.2023.134029 297 数据挖掘参考文献参考文献 1 Zhang,X.and Ghorbani,A.A.(2020)An Overview of Online Fake News:Characterization,Detection,and Discus-sion.Information Processing and Management,57,Art

44、icle ID:102025.https:/doi.org/10.1016/j.ipm.2019.03.004 2 Ngadiron,S.,Abd Aziz,A.and Mohamed,S.S.(2021)The Spread of Covid-19 Fake News on Social Media and Its Impact Among Malaysians.International Journal of Law,Government and Communication,6,253-260.https:/doi.org/10.35631/IJLGC.6220024 3 Aslam,N.

45、,Ullah Khan,I.,Alotaibi,F.S.,Aldaej,L.A.and Aldubaikil,A.K.(2021)Fake Detect:A Deep Learning En-semble Model for Fake News Detection.Complexity,2021,Article ID:5557784.https:/doi.org/10.1155/2021/5557784 4 Allcott,H.and Gentzkow,M.(2017)Social Media and Fake News in the 2016 Election.Journal of Econ

46、omic Pers-pectives,31,211-236.https:/doi.org/10.1257/jep.31.2.211 5 Roy,A.,Basak,K.,Ekbal,A.and Bhattacharyya,P.(2018)A Deep Ensemble Framework for Fake News Detection and Classification.ArXiv Preprint ArXiv:1811.04670.6 Prez-Rosas,V.,Kleinberg,B.,Lefevre,A.and Mihalcea,R.(2018)Automatic Detection o

47、f Fake News.Proceedings of the 27th International Conference on Computational Linguistics,Santa Fe,20-26 August 2018,3391-3401.7 Ma,J.,Gao,W.,Wei,Z.,et al.(2015)Detect Rumors Using Time Series of Social Context Information on Microblog-ging Websites.Proceedings of the 24th ACM International on Confe

48、rence on Information and Knowledge Management,1751-1754.8 Shu,K.,Mahudeswaran,D.,Wang,S.,Lee,D.and Liu,H.(2020)FakeNewsNet:A Data Repository with News Con-tent,Social Context,and Dynamic Information for Studying Fake News on Social Media.Big Data,8,171-188.https:/doi.org/10.1089/big.2020.0062 9 Yu,F

49、.,Liu,Q.,Wu,S.,Wang,L.and Tan,T.(2017)A Convolutional Approach for Misinformation Identification.IJCAI17:Proceedings of the 26th International Joint Conference on Artificial Intelligence,Melbourne,19-25 August 2017,3901-3907.https:/www.ijcai.org/proceedings/2017/0545.pdf https:/doi.org/10.24963/ijca

50、i.2017/545 10 Wang,W.Y.(2017)“Liar,Liar Pants on Fire”:A New Benchmark Dataset for Fake News Detection.Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics,Vancouver,30 July-4 August 2017,422-426.https:/doi.org/10.18653/v1/P17-2067 11 Yang,Y.,Zheng,L.,Zhang,J.,et a

展开阅读全文