收藏 分销(赏)

LSTM多模态虚假评论检测.pdf

上传人:自信****多点 文档编号:544398 上传时间:2023-11-27 格式:PDF 页数:5 大小:1.26MB
下载 相关 举报
LSTM多模态虚假评论检测.pdf_第1页
第1页 / 共5页
LSTM多模态虚假评论检测.pdf_第2页
第2页 / 共5页
LSTM多模态虚假评论检测.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 39 卷 第 8 期 福 建 电 脑 Vol.39 No.8 2023 年 8 月 Journal of Fujian Computer Aug.2023 本文得到2022年上海市大学生创新创业训练项目(No.202211458034)资助。蔡桢杰,男,2001年生,主要研究领域为模态融合、虚假评论识别等。E-mail:cai_。李建敦(通信作者),男,1982年生,主要研究领域为模态融合、虚假评论识别等。E-mail:。李原驰,男,2002年生,主要研究领域为数据向量化和数据情感分析。E-mail:。LSTM 多模态虚假评论检测 蔡桢杰 李建敦 李原驰 朱婧姝 奚梦玲 孟浩杰 (上海电机

2、学院电子信息学院 上海 201306)摘 要 在线评论作为重要的用户反馈和产品推荐渠道,其真实性和可信度至关重要。但是,虚假评论的存在严重影响在线评论的可信度。本文针对在线评论数据集中的多模态融合问题与样本集不平衡的问题,以某电商平台上一款热销手机的评论数据为基础进行试验。结果表明,长短期记忆网络(LSTM)模型在处理多模态的虚假评论识别上有着非常显著的效果。本文的研究有效解决了多模态数据的融合问题,为多模态虚假评论的治理与防范提供了有益思路。训练后的长短期记忆网络模型能够很好地识别多模态虚假评论,识别精度和效果理想,为自动检测多模态虚假评论提供了实际基础。关键词 虚假评论;多模态融合;词频-

3、逆文档频率;支持向量机;长短期记忆网络 中图法分类号 TP391.1 DOI:10.16707/ki.fjpc.2023.08.007 Fake Review Detection Using LSTM with Multimodal Information CAI Zhenjie,LI Jiandun,LI Yuanchi,ZHU Jingshu,XI Mengling,MENG Haojie (School of Electronic Information,Shanghai University of Electric Machinery,Shanghai,China,201306)Abs

4、tract Online reviews are an important channel for user feedback and product recommendations.Their authenticity and credibility are crucial.However,the existence of fake reviews seriously undermines the credibility of online reviews.This study focuses on the multimodal fusion problem and sample imbal

5、ance problem in online review datasets.Based on the review data of a popular mobile phone on a certain e-commerce platform,experiments show that the long short-term memory(LSTM)model has a very significant effect on processing multimodal fake review recognition.This study effectively solves the prob

6、lem of multimodal data fusion and provides a useful approach for the governance and prevention of multimodal fake reviews.The trained long short-term memory network model can recognize multimodal fake reviews very well.Its recognition accuracy and effect are ideal,providing a practical basis for aut

7、omatically detecting multimodal fake reviews.Keywords Fake Comment;Multimode Fusion;TF-IDF;SVM;LSTM 1 引言 为解决虚假评论问题,许多学者探索了如何有效检测和过滤虚假评论。本文选择京东网站上红米K50 手机评论为案例,使用网络爬虫收集评论文字、图片和视频数据。通过 Word2Vec(一种用于获取词向量的机器学习模型)、词频-逆文档频率(term frequencyinverse document frequency,TF-IDF)、卷积神经网络(CNN)模型,将三种数据向量化。实验训练了支持向量

8、机(SVM)和长短期记忆网络(LSTM)等分类模型,成功建立高效准确的虚假评论检测系统。多次实验结果显示,系统准确性和可靠性提高。2 数据集描述 目前,阿里速运、京东等多个跨境电商平台对2023 年 福 建 电 脑 33 电商市场产生了重大影响1。为了研究消费者对于电商平台上的数码产品的评论情况,选取京东购物平台上的一款数码产品红米 K50 手机,并建立了一个有监督的多模态评论集。其中,正采样数据选取了 460 条小样本评论集,由志愿者书写;负采样数据则基于公开评论集至少 2/3 可信的经验法则,从中爬取了共计 300 条评论。为了更好地展示采样数据的情况,提供了正采样和负采样两份数据集的详情

9、表格。正采样获取到的样例如表 1 所示,其中包括编号、外形、拍照效果、运行速度、待机时间、图片编号和视频编号七个属性。每个属性都与红米K50 手机相关。可以看出,正采样数据集中的每条评论都是基于志愿者编写的虚假评论。负采样样例如表 2 所示,同样包括编号、外形、拍照效果、运行速度、待机时间、图片编号和视频编号七个属性,与正采样数据集的属性相同。负采样数据集是从公开评论中爬取的,负采样数据集中的评论也反映了消费者对于该产品的真实评价,具有一定的参考价值。表 1 正采样详情 表 2 负采样详情 3 架构描述 首先将所得数据清洗及预处理,进行文本分词后使用词频-逆文档频率(TF-IDF)对文本进行向

10、量化,得到 TF-IDF 特征矩阵。将正采样文件与负采样文件映射到同一纬度上,图形的向量化由卷积神经网络(CNN)模型的 resnet50(用于特征提取的预训练模型)实现。将所有特征合并成一个张量并将其保存到磁盘上的文件中。视频的向量化对每个视频进行帧读取、预处理和特征提取,最终将所有特征拼接在一起,保存到一个 PyTorch 保存格式的文件中。最后深度学习训练模型长短期记忆网络(LSTM)代码中 Input Layer 接收输入数据,将其输入到双向 LSTM 层中。双向 LSTM 层输出的结果被送入全连接层。LSTM 的全连接层可以通过将LSTM 的输出作为输入,然后使用全连接层来提取特征。

11、全连接层特 LSTM 的输出映射到一个固定大小的向量。这个向量可以用于分类、回归或其他任务。具体来说,可以将 LSTM 的输出传递给一个具有多个神经元的全连接层,然后使用激活函数对其进行处理,最终得到一个特征向量。接着进入 Batch Normalization 层进行标准化处理。这样可以快速地学习,大大提高效率,不需过分依赖初始值,使得初始值变得健壮,可以抑制过拟合,提高泛化能力。标准化的结果再被送入另一个全连接层,最后输出分类结果。实际上有两个版本的类。第一个版本被注释掉了。它有一个额外的 LSTM 层和一个注意力机制。对于给定目标,生成一个权重系数,对输入进行加权求和,来识别输入中哪些特

12、征对于目标编号 外形 拍照效果 运行速度 待机时间 图片编号 视频编号 001 银色颜色好看,很有质感 拍照清晰,可以放大变焦 运行很流畅,导入数据很快 待机时间满足日常办公需求 001 1 002 手感舒适,很柔滑,质感优秀,材质非常好 拍照效果不会输,1 亿像素,很优秀,很值 运行速度很快,不会卡顿,系统稳定 待机时间很长,上课一天电量充足 002 2 003 外观和描述一致,美观实用,好评!系统没有卡顿感,非常流畅 电池完全够用,一天一充问题不大,巨省电 003 3 编号 外形 拍照效果 运行速度 待机时间 图片编号 视频编号 001 手感很好,边框过渡优秀!不错 玩原神完全不卡!值得购

13、买!续航很赞,亮屏8 小时没问题!001 002 好看的很 像素杠杠滴 不是普通的快,是特快 不是普通的快,是特快 002 1 003 很好看,蓝色很炫酷 是真的不行,但是我不太拍照 很快 很快 003 34 蔡桢杰等:LSTM 多模态虚假评论检测 第 8 期 是重要的,哪些特征是不重要的;用于计算 LSTM 输出的加权和。第二个版本具有更简单的体系结构,含有两个 LSTM 层,但没有注意力机制,如图 1 所示。图 1 模态融合与分类器训练架构图 4 向量化 4.1 文本向量化 4.1.1 Word2Vec 初期,文本在经过简单的分词之后使用 one-hot向量对所分单词进行向量表示。但 on

14、e-hot 向量仅仅利用了单词的相关位置信息,并未考虑单词的语义信息,产生的特征没有带来更多的信息,反而带来了具有共线性的特征,导致所获的词向量缺少文本语义信息的参与。为了获得更多的语义信息,MIKOLOV 等人提出了基于深度表示的模型Word2Vec2。Word2Vec 模型有 Skip-Gram 和 CBOW两种。在大语料训练中文词向量时,Skip-gram 模型识别新词效果更佳,总体性能更优。它们通过构建包含上下文信息的神经网络,学习得到带有上下文信息的词向量。Word2Vec 不考虑词序,训练后得到每个词语的词向量,表示词与词的关系。它考虑句子中词与词关系,表达两者亲疏。对于购物评论,

15、Word2Vec 可将虚假评论词语向量化,检测与分类评论语义相似度。Word2Vec学习词语分布式向量表示,实现有效评论编码,自动捕获语义与解决稀疏性,简化特征工程,提供端到端评论分析解决方案。但 Word2Vec 是单向学习,难以解决词义歧义与新词组合问题。这是后续需要改进的方向。总之,Word2Vec 通过神经网络学习带有上下文的词向量,表示并考虑了词与词关系。它可将评论词语向量化,用于语义检测与分类。它实现自动语义捕获与稀疏性解决,简化特征工程,提供端到端评论分析解决方案。但需解决词义歧义与新词组合问题。4.1.2 TF-IDF TF-IDF 是一种常用的加权技术3-4。该算法在文章中挖

16、掘关键词方面表现优异,具有简单高效的特点,因此在文本数据清洗的初期往往得到工业界的青睐。其中,TF 表示词频,IDF 表示逆文档频率,将两者相乘可以得到某个词的 TF-IDF 的值。通过计算文章中各个词的 TF-IDF,并按照从大到小的顺序进行排序,可以快速准确地确定文章的关键词。TF-IDF 算法的优点在于其简单、快速、易理解的特点。但是其缺点在于使用词频来衡量一个词的重要性可能不够全面,有时候重要的词出现的可能不够多,无法体现位置信息以及上下文语境对词语重要性的影响。如果要综合考虑上下文结构,可以考虑2023 年 福 建 电 脑 35 采用 word2vec 算法5-6。在该实验中,采用s

17、klearn.feature_extraction.text 中的 TfidfVectorizer()函数将原始文本转化为特征矩阵。游等人也采用了同样的模型7。使用该模型可以将文本转换为可以用于计算的特征向量,从而清晰地得到词语在文档中的重要程度,进而判断该文档的情感类别,提高效率。然而,在确定影响因子时,仅使用频次来抽取文本特征的方法并不完美。因为在该模型中,一般认为数值越大的词汇具有更大的重要性。但实际上,有些词汇虽然出现次数较多,但其影响力却较小。因此,在实验中,采用了 sklearn 中的 PCA 算法对结果进行主成分分析,保留了 300 个评论,并将正负评论的特征矩阵映射到同一维度上

18、,以获取更加全面准确的分析结果。4.2 图片和视频向量化 CNN 在图像分类中的表现优异8-11,主要得益于其能够自动地进行特征学习,不需要手动设计特征,避免了人工选择特征所带来的局限性和不确定性。此外,CNN 还具有良好的泛化能力,能够处理各种类型和规模的图像数据。CNN 的向量化过程中,将图像看作一个多维数组(矩阵),其中每个元素表示像素值。CNN 利用卷积操作来捕捉图像的空间结构,即局部相关性,通过卷积核(filter)滑动窗口遍历整张图像进行特征提取。卷积操作可以有效地减少参数数量,从而缓解了过拟合问题。最后,将提取的特征送入全连接层进行分类、回归等任务。在训练过程中,CNN 通过反向

19、传播算法优化模型参数,目标是最小化损失函数,使得模型对未见过的数据具有较好的泛化能力。CNN 在图像处理中的优点是能够快速高效地提取图像特征,且不需要人工手动设计特征,从而减少了人工干预和主观性带来的影响。在本实验中,CNNModel 类对本实验使用的CNN 模型进行了定义,神经网络中输入的特征数为2048,输出的特征数为 256。通过 ImageDataset 类和 VideoDataset 类进行图片和视频的提取和处理,将其转化为数组形式。通过 with torch.no_grad()进行特征的提取。最后通过 torch.save()将获得的特征进行保存。本实验对视频和图片采用了相同的提取

20、数量,相同的 CNN 模型的定义,不同点在于视频部分的代码中,本实验需要将视频转化为帧图片,因此在_getitem_()函数中进行了调整,使用cv2.VideoCapture()和 cv2.cvtColor()对视频进行处理,使其以图片的形式去进行特征提取。5 分类器训练 5.1 SVM 支持向量机是一种有监督学习的二分类模型。SVM 通过寻找一个超平面来对正负样本进行分割来训练分类器。分割的原理是样本到超平面的几何间隔最大化,最终将问题转换为一个凸二次规划来求解。SVM 可以对数据进行正类或负类的分析。在本实验收集的数据中,将 80%的数据用作训练集,20%用作测试集,对模型的构建进行验证,

21、评论将通过 TF-IDF 模型转换为数据输入。首先将获取的数据导入训练集和测试集中,再将数据导入训练器中,利用四种不同的核函数,训练出四个模型。然后将测试数据导入四个训练好的模型中,分别得到四组预测结果。最后利用metrics.classification_report()进行分类评估,利用metrics.confusion_matrix()得到混淆矩阵。本实验使用的训练器的评价的方法是使用混淆矩阵。因为本实验的模型目的是为了判断正负评论,所以在这个模型中预测的类别为 2,从而得到了 2x2 的矩阵。得到的矩阵如表 3 所示。表 3 数据矩阵 第一列 第二列 第一行 0 54 0 190 20

22、 34 5 185 第二行 8 46 10 180 24 30 15 175 实际得到的正确率分为四组,分别为 0.78、0.84、0.77 和 0.82,平均正确率为 80.25%。不同组别的正确率如图 2 所示。图 2 不同组别的正确率对比图 36 蔡桢杰等:LSTM 多模态虚假评论检测 第 8 期 5.2 LSTM LSTM 是一种循环神经网络的变体,可以有效地处理序列数据和长期依赖关系。周等人使用LSTM 模型分析中文评论情感具有较好的效果10,能够对长文本进行建模并捕捉到文本中的重要特征,从而提高情感分类的准确性。在中文评论情感分析中,LSTM 模型通常结合了词向量(word emb

23、edding)技术来进一步提高分类效果12。本次实验模型首先对输入序列应用卷积层以提取局部模式,然后将输出馈送到两个堆叠的LSTM 层中来捕获序列中的时间依赖性。接着,将注意力机制应用于 LSTM 的输出。它计算 LSTM 输出向量的加权和,以获取序列的固定长度表示。最后,该模型通过两个全连接层将固定长度表示传递,以获得分类输出。使用测试集得到的准确率为99.34%,模型效果显著。利用 LSTM 模型学习图像和视频序列数据中的时序特征,并利用注意力机制聚焦在重要元素上。经过训练可以捕获数据中的模式和规律,实现图像和视频的分类任务。该方法相比于 CNN 等其他方法13-15,可以更好地利用序列数

24、据中的时序信息。这对于视频分类等任务更为重要。该代码实现了一个端到端的图像和视频分类系统,通过 DataLoader 读取数据,定义 LSTM 模型与损失函数,使用 optimizer 进行优化,最终输出测试集准确率,评价模型分类性能。相比人工设计复杂的特征特征工程,该系统实现了自动特征学习,在一定程度上简化了开发过程。它实现了基于LSTM 和注意力机制的图像和视频的自动分类方法,可以自动学习输入数据的特征,利用 LSTM 更好地利用序列信息实现分类任务,简化了传统方法中的人工特征工程过程。6 结语 识别虚假评论十分必要,但面临模态融合和正负样本不平衡等挑战。本文提出了一种基于 LSTM的多模

25、态虚假评论检测方法。通过 CNN 将图片、视频向量化并与 TD-IDF 文本向量化的结果相连接,使用两种模型 SVM 和 LSTM 进行训练。实验结果显示,LSTM 效果最好。该方法为多模态虚假评论的治理与防范提供了实际见解。致 谢 感谢上海市大学生创新创业训练项目对本文的支持。参 考 文 献 1 Panova Y,Tan A,Hilmola O P,et al.Evaluation of e-commerce location and entry to Chinaimplications on shipping and trade.Journal of Shipping and Trade,

26、2019(4):1-25 2 Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space.arXiv preprint arXiv:1301.3781,2013 3 李楚.基于TF-IDF算法的文本量化方法及作者识别应用.现代信息科技,2022,6(19):1-6,12 4 朱小虎,周艳平,姜涛,等.一种基于主题划分及TF-IDF的文本摘要提取方法.计算机与数字工程,2022,50(08):1760-1765 5 龚永罡,郭远南.基于TF-IDF和word2Vec的中

27、文文本自动摘要模型.中国新通信,2023,25(02):65-67 6 刘宇韬,施莉,刘诗含.基于TF-IDF与Word2vec的用户评论分析研究.成都航空职业技术学院学报,2022,38(04):89-92 7 游棉州,钟亚妹,邹鹏,等.基于sklearn的文本情感分析.集成电路应用,2022,39(06):92-93 8 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks.Communications of the ACM,2017,60(6)

28、:84-90 9 Sharif Razavian A,Azizpour H,Sullivan J,et al.CNN features off-the-shelf:an astounding baseline for recognition/Proceedings of the IEEE conference on computer vision and pattern recognition workshops.2014:806-813 10 M.Oquab,L.Bottou,I.Laptev,J.Sivic.Learning and Transferring Mid-level Image

29、 Representations Using Convolutional Neural Networks.2014 IEEE Conference on Computer Vision and Pattern Recognition,Columbus,OH,USA,2014:1717-1724 11 Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition.arXiv preprint arXiv:1409.1556,2014 12 Zhou C,Sun C,Liu Z,et al.A C-LSTM neural network for text classification.arXiv preprint arXiv:1511.08630,2015 13 杜小东.基于主题情感模型的虚假评论检测方法研究硕士学位论文.重庆大学,重庆 2021 14 曹乃珺.基于多维特征检测的异常评论识别方法研究硕士学位论文.大连海事大学,大连,2019 15 道如那.基于文本与用户行为挖掘的虚假评论识别研究硕士学位论文.内蒙古大学,呼和浩特,2018

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服