收藏 分销(赏)

基于极小极大博弈的水军识别算法研究.pdf

上传人:自信****多点 文档编号:328363 上传时间:2023-08-16 格式:PDF 页数:8 大小:4.91MB
下载 相关 举报
基于极小极大博弈的水军识别算法研究.pdf_第1页
第1页 / 共8页
基于极小极大博弈的水军识别算法研究.pdf_第2页
第2页 / 共8页
基于极小极大博弈的水军识别算法研究.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、Jun.2023JOURNALOFCHENGDUUNIVERSITY OF INFORMATIONTECHNOLOGY2023年6 月Vol.38No.3息报第38 卷第3期大学学程成都信文章编号:2 0 96-16 18(2 0 2 3)0 3-0 30 6-0 8基于极小极大博奔的水军识别算法研究穆云翔,盛志伟,卢嘉中(成都信息工程大学网络空间安全学院,四川成都6 10 2 2 5)摘要:随着互联网的发展,用户越来越多地在线上完成购物、订餐,并倾向于先参考线上评论。评论对用户决策的重要导向作用催生了网络水军。网络水军会为了自身利益或其他不良动机,发布与实际体验不相符的评价,且会随时调整自已

2、的策略来逃避平台的识别。现提出一个基于行为特征的水军识别算法(FBS),并将FBS加人到极小极大博奔,在这个博奔中,水军与识别器相互竞争,将博奔转换为两个相互依赖的马尔可夫决策过程,不断优化各自的策略,最终得到一个当前场景下最优的识别器。与当前先进的水军识别算法对比,性能有了明显提升,在公开数据集YelpChi上实际效应可以达到3.6 9。关键词:网络水军;水军识别;极小极大博奔;马尔可夫决策过程中图分类号:TP393文献标志码:Adoi:10.16836/ki.jcuit.2023.03.0090引言网络水军是指在网络中针对特定内容发布特定信息的、被雇佣的网络写手,简称水军,又名网络枪手。他

3、们通常活跃在电子商务网站平台中,通过发布虚假的商品评价来影响正常消费者的决策。网络的快速发展为水军提供了滋生条件。一方面,网络环境提供的便利:网络开放性、即时性、自由性、交互性等特点为网络水军的发展壮大提供了环境支撑。网络的开放性为网络水军提供了自由出入的媒体门户,不需要提供任何真实信息即可倘祥于各大论坛、贴吧,在网络上任意发表言论;网络的即时性则有助于网络水军引导网民对舆情的推动,让受众在缺乏理性分析的前提下引爆预设议题。网络的自由性塑造了无中心的狂欢广场,任何网民都可自由发布信息,也为网络水军的“灌水”行为提供了便利。网络的交互性为政府、媒体、网民之间的交流互动提供了便利,从而形成“围观”

4、的力量。另一方面,网络受众的媒介素养偏低。中国网民群体庞大,但媒介素养参差不齐,整体不容乐观,在一定程度上纵容了网络水军的发展壮大。一些年轻网民由于心态不成熟,往往不能客观、全面、辩证地看待社会问题,容易受网络负面情绪影响。面对网络水军故意炒作的热点事件,极易非理性地跟风发帖,成为网络水军的“帮凶”。一些在经济上比较失意的网民则容易产生“仇富”心态,当网络上曝出诸如“房妹”等新闻热点时,他们会不自觉地与网络水军收稿日期:2 0 2 2-0 7-16基金项目:四川省科技计划资助项目(2 0 2 1YFC0332)站在同一战壕;一些网民对娱乐化的追求不断削弱主流媒体的权威性与影响力,为更能把握网民

5、心理的网络水军提供了抢占先机的机会。电子商务平台提供在线评论系统作为商家与消费者的桥梁。消费者通过浏览评论细节来决定是否购买产品,产品评论成为影响消费者购买欲望的重要因素。由于消费者倾向于购买好评产品,而放弃购买负面评论产品,因此在竞争激烈的电商市场中,许多商家通过雇佣“水军”,在自己的店铺下用图片伪造好评,操纵评论。并在竞争对手的门店下进行恶意评论,误导消费者。水军虚假评论的存在干扰了产品描述的真实性,对电商平台和消费者产生了显著的负面影响。因此,识别网络水军评论并保护消费者权益非常重要。总而言之,通过大量同质行为或内容形成回声室效应,从而影响其他用户的观点和决策,是网络水军的最终目的。在电

6、商平台中,网络水军采取发布不实信息来混淆视听。对于消费者而言,水军的存在影响购买意愿;对于商家而言,如何请水军刷好评变成了影响销售的最大因素;对于市场而言,水军扰乱了原有的市场秩序。这对于行业的发展具有很大的影响力,因此网络水军的监管成为一个呕待解决的难题。本文主要关注Yelp系统中的水军。关于这类水军识别器主要有以下缺点:(1)大多数识别器都假设水军有相同的特征,并且可以根据这个特征来识别水军。但是在现实世界里有很多种水军,他们有不同的目标、对象和策略。如一个水军可能想要推广某一件商品,而另一个水军想要贬低竞争对手。(2)专业水307穆云翔识别算法研究第3 期军会研究最新的识别技术,并从中发

7、掘新的策略来逃过识别器 1-2 。(3)现有的识别器大都基于精确率和召回率作为识别目标。而根据Luca3利用市场研究的现有成果,从商品评分变化的角度定义了网络水军的实际效应。实际效应可以用来表示水军和平台在对抗过程中的实际目标,假设水军的目标是推广目标商品,那么平台的目标就是尽可能地减少推广的程度。文献 3 也通过实验证明,即使在召回率很高的情况下,水军依然可以达到很高的推广效果。本文提出一种利用用户行为特征的水军识别算法(FBS),将FBS应用到一个水军对抗模型,最终训练出的识别器在公开数据集YelpChi上取得了不错的性能表现。并利用网络水军账号的一些特点,提出几种新的用户特征和一个基于用

8、户行为特征分析的水军识别算法(FBS)。将FBS应用到一个水军对抗模型中,最终训练出的识别算法性能相较于以前有明显提升。1相关工作1.1AP算法AP(a f f i n i t y p r o p a g a t i o n)算法 4 无需事先指定聚类数目,且没有明确的质心(聚类中心点),样本中的所有数据点都可能成为AP算法中的质心。根据现实环境中网络水军种类繁多,且同类型水军之间较为类似的特点,再基于AP算法的上述特征,将其应用到水军对抗模型。1.2分类器的选择目前最常见的分类器有人工神经网络、K-近邻(K-NN)、朴素贝叶斯和决策树。尽管这些分类算法在几十年的发展中衍生出很多的改进算法,但

9、是仍然没有一种完美的分类算法能适应所有的环境问题。根据Kotsiantis5在主流分类算法性能比较,人工神经网络和支持向量机对大规模数据训练比较困难,且对缺失数据敏感;K-NN时间复杂度和空间复杂度高,可解释性差;朴素贝叶斯通常准确率较低,且只能用于处理二分类问题;相对于其他几种分类算法,决策树计算量简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关的特征。此外,决策树能够很好地处理同时具有离散和连续属性的分类问题。因此,使用决策树算法进行分类识别最为合适,详情如表1所示。表1机器学习常用分类算法比较分类算法优势劣势人工神经网络准确率高训练数据大、学习时间长与特征维度无关,其对数

10、据缺失敏感、计算复杂度支持向量机适用于特征多、样本与样本个数有关少的分类任务K-NN无需训练时间效率低、K的选择不固定朴素贝叶斯对数据缺失不敏感特征之间需要相互独立综合性能均衡、可解信息增益偏向于有多数值的决策树释性强特征1.3网络水军对抗模型2020年Dou等 6 利用强化学习建立的水军对抗模型,提出一种全新的水军识别性能的评测指标PE(p r a c t i c a l e f f e c t)。该模型利用多个水军识别算法和多种水军攻击策略进行博奔,将博奔过程转换为两条相互依赖的马尔可夫决策过程。利用双方博奔直至达到纳什均衡,此时的水军识别算法即可认为是当前环境下的最优算法。本文将提出FB

11、S并将其应用到对抗模型中,以此训练出的水军识别算法达到的效果相较于以前PE提升了8%。1.4研究现状现有识别网络水军的方法主要有3种:基于文本与情感分析法、基于行为特征分析法和基于图结构法。其中,基于文本与情感分析需要花费较长时间进行训练,且随着NLP等人工智能算法的发展,水军文本内容已经和普通用户的评论文本差别越来越小。因此,基于文本分析法的性能相较于其他两种普遍偏低。早期的水军由于发布的评论信息都很类似,因此研究方法大多基于语言学特征。其中,词袋特征是大部分研究者的首选语言特征。MMccord等 7 提取重复评论的bigram特征,在推特数据集训练回归模型,利用随机森林分类器识别只关注品牌

12、的评论和评论文本无关的两类垃圾评论,精确率高达95.7%。Li等 8 基于新扩展的黄金标准数据集识别网络水军,该数据集由来自3个不同领域(酒店、餐厅、医生)的数据组成,每个领域都包含3种类型的评论,即客户生成的真实评论、网络水军生成的欺骗性评论和员工(领域专家)生成的欺瞒性评论。该文试图捕捉欺骗性评论和真实评论之间语言特征的一般差异和水军检测的领域迁移性问题。实验表明该模型在餐厅数据集上分类准确率都能达到7 5%左右,而在医生数据集上准确率只有50%左右。实验表明该特征用于水军的虚假评论检测的领域迁移性差。大308息程都成第38 卷报信学学NoekhahS等 9 通过提取分析词频、信息丰富度、

13、内容定罪等特征,实现了基于欺骗性语言的评论文本在线欺骗识别系统。将这些特征集应用到之前使用的3个分类器(支持向量机、朴素贝叶斯和C4.5决策树),并使用5倍交叉验证。最终的实验结果表明,识别欺骗性评论的准确率达到8 0%,但是该识别方法时间复杂度很高,并不适用于一些较大的数据集。Wang等 10 首先提出虚假评价检测中的冷启动问题,在Yelp评价数据上提取一部分“新的评价”,即该用户只发布了一条评价。作者将之前研究中提到的文本和行为特征检测模型应用到这些新评价上,发现检测的效果并不好。为解决这种冷启动问题,一种直观的想法是从历史数据中去寻找和这个新评价发布者特征相似的评论者,然后把最相似的评价

14、者或者评价的标签作为该新评价的标签。总而言之,虽然新评价信息很少,但可以通过深度学习,在历史数据上学习到有效的关系嵌人(embedding),然后利用该模型得到新的数据嵌入,这样就可以结合历史嵌入和其标签来预测新数据的标签。Hooi B等 利用二部图提出了Fraudar算法。Fraudar定义了一个可以表达结点平均可疑度的全局度量G(),在逐步贪心移除可疑度最小结点的迭代过程中,使G()达到最大的留存结点组成可疑度最高的致密子图。在此算法中,由于无法模仿每个节点与其他节点的联系,因此准确率大幅度提升。但是Fraudar的一个缺点是它的串行运算特性导致在大规模二部图上运算缓慢,其每次迭代只动态地

15、删除一个结点并更新剩余结点状态。Wang等 12 除了利用用户本身的一些信息,还利用用户在社交网络中的好友关系对一些可疑用户进行识别。作者基于图结构的方法将水军和水军的虚假评论识别看作联合分类或排序问题,再采用马尔科夫随机场模型和LBp13(loopy belief propagation)计算每个节点的可疑程度。还对LBP算法进行优化,提高了算法的效率并且有收敛性的保证。实验表明,该模型在新浪微博数据集上的分类Accuracy都能达到7 5%。ShahN等 14 提出利用网络结构特征来识别在亚马逊上通过众包发送水军虚假评论的用户,提出TwoFace算法,更多关注召回率,该算法有的召回率能够达

16、到91%。该算法也有缺点,groundtruth的可信度不是很高。SRayana2提出SPEACLE框架来做网络水军识别,利用关联数据和元数据,结合了图、行为和文本进行水军识别,该方法中图由user-review-product图构成,3种类型的结点都有标签,user:水军与否,review:虚假与否,product:为被攻击目标与否。论文用图来做分类,用metadata来估计有关节点的类分布的先验知识。该算法在数据集YelpZip上的准确率可以达到79.4%。尽管研究者们都针对不同情况下的用户特征进行深入研究,但其往往集中在某几个方面。随着平台和水军的发展,上述方法大多只能识别出某一类水军,

17、适用性并不够广泛。2FBS-基于行为特征的水军识别算法2.1问题描述由于现实环境中电商平台的网络水军复杂且多样,因此水军检测主要面临的困难在于水军检测涉及的特征难以规范化表达。一方面,水军覆盖范围广,在不同平台其特征不尽相同,导致没有一个标准的水军特征集;另一方面,水军经过多年发展,不断通过模仿正常用户来伪装自己,导致识别模型准确率不高。因此特征的选择变得尤为重要,应选用水军无法模仿的一些特征加人特征集。2.2特征定义在Yelp系统中,刻画用户的特征有很多,如MNR(一天内写的最大评论数)、PR(积极评论比例)、NR(负面评论比例)等。结合Mukherjee等 1 的研究,选取了4个原始特征,

18、如表2 所示。表2原始特征描述特征名称特征含义用户一天内写的最大评论数量。用户的评论一般都较MNR为均匀地分布在账号的存活期中,而水军用户就更有可能在一段时间内爆发式地评论。负面评论比例。计算方法如下公式所示:PR=PRNumber(Review_Negative)Review_Numher正面评论比例。计算方法如下公式所示:NR=NRNumber(Review_Positive)Review_NumberRD与产品平均评级的绝对评级偏差。针对当前网络水军特征覆盖面不足导致识别率不高的问题,综合Yelp系统中水军用户与正常用户的差异性,结合水军用户的一些突出特征,本文提出AW、ISR、ERD、

19、ET G、SQ D 等5个新特征,以此来扩充现有特征集对网络水军特征的覆盖面。定义1AW是用户发表的第一条评论和最后一309穆云翔,等:基于极小极大博奔的水军识别算法研究第3 期条评论的时间差。通常情况下,水军的时间差较短。因为部分水军可能只是为了某几次完成任务而注册,且完成刷分之后便弃用账号AW=Time_last-Time_first定义2ISR是用户是否仅有唯一评论。水军账号的注册可能仅是为了某一次的刷分行为,在之后便不再使用,而正常用户的使用大多是长期的。定义3ERD是用户评论的时间分布熵。分布熵是对不同概率分布的刻画,它是概率分布的不确定性的期望值。值越大,表示时间分布的不确定性越大

20、。正常用户的评论时间一般是长期且稳定的,不会在短时间内出现大量的评论,因此时间分布的不确定性较大,分布熵较大。而水军大多情况下,在任务集中时存在爆发式的评论。因此,时间分布的不确定性较低,分布熵较小。ETG=-Zp:lg(P,)其中p;表示第i个类别出现的概率,一般可以通过用属于此类别的样本数量除以样本容量来估计该值。定义4ETG是用户评论的评分分布熵。一般来说,正常用户的评分分布不稳定,而水军的评分分布大多分布在最高分和最低分。因此,正常用户的评分分布较高,而水军的评分分布熵较低。定义5SQD是用户评分中最高评分和最低评分在全部评论中的占比。因水军是为了提高或降低某一商品的评分,故水军的最高

21、评分和最低评分在全部评论中的占比较高,正常用户占比较低。Number(Review_maximim U Review_minimum)NR:Review_Number为验证所选取特征与构建的新特征的有效性,本文利用卡方检验算法 13 对上述特征进行相关性验证,得到的特征P值排序结果,如表3所示。表3牛特征P值排序序号特征描述P值1MNR3.05E-202SQD4.57E-173RD1.13E-154ISR2.88E-135AW4.56E-106PR8.69E-87ERD1.56E-58ETG1.05E49NR3.79E-2从表3可以看出,所提出的SQD、ISR、A W、ERD、ETG的特征P值

22、分别排在第2 名、第4名、第5名、第7名、第8 名。因此,新构造的5个特征和数据任务相关性较强,具有一定的有效性。因此,将采用这9个特征作为水军特征集。2.3FBS算法模型结合网络水军与正常用户之间的差异,给出一个能准确反映水军和正常用户之间差异的特征集合,采用AP聚类算法的特征集,引人AP聚类算法,通过刻画用户和用户之间的相似性,结合同一类别水军高度相似的特点,解决多类别水军适应性问题,再通过引入一个合适的欧氏距离阈值Radius,将值之内所有未标注用户标注为其所属质心的标签,再将扩充后的标注集通过C4.5决策树算法进行分类模型训练,其流程如图1所示。开始计算节点想似度标注数据集和未标注数据

23、集输出球状聚类图计算已标注水军的相似度矩阵输出球状聚类图工选择以标注数据为质心的初始化吸引度矩阵和归属度矩阵簇,设置半径Radius,将该范围内所有未标注数据转化为标记数据计算并更新吸引度矩阵新标注数据集和测试数据集计算并更新归属度矩阵C4.5算法分类N送代至收敛输出识别结果YI输出聚类中心结束图1FBS流程2.4算法描述和分析具体算法描述如下。输人:Yelp用户信息集合Uui,uz,us,,u n输出:每个Yelp用户u,为水军的可能性大小y,方法:按以下步骤执行步骤1:对于Yelp用户u,按照表2 的内容提取原始特征;步骤2:利用上一步提取的基础特征,分别计算AW、ISR、ERD、ET G

24、、SQ D;步骤3:将按上述步骤处理好特征后的数据集输入到AP聚类模型中进行聚类,对以标注数据为质心的簇,引人Radius阈值,将Radius 范围内所有未标注数据标注未与其所属质心同一标签;步骤4:将步骤3中得到的新标注集和原始标注集一起输入到C4.5决策树中进行模型训练;步骤5:将测试集输入到步骤4中训练好的分类应PE。计算方法:设计了-种更能表现水军实际影响力的指标:实际效的评论更频繁地呈现给客户。利用这项研究的结果,他们在评论系统中对产品的评价更重要,比普通用户同,VIP用户的评论对产品收益 3 的影响更大。因为与VIP用户的评论额的影响也有所不分5分),其销售额会增长5%9%。并且普

25、通用户额,在 M Luca的研究中发1分(满平均评分的提品的销售大310息程都报成第38 卷学信学模型中,输出识别结果每个Yelp用户u,为水军的可能性大小y;步骤6:计算模型PE值,算法结束。2.5使用的识别器和水军攻击策略将提出的FBS算法引人到Dou等 6 提出的水军对抗模型中,训练出在YelpChi上性能更好的识别器。具体使用到的识别算法和水军攻击策略如下:识别器:采用如下几种识别算法作为博奔中的水军识别方。(1)G A NG 14 基于马尔科夫随机场的识别器,利用有向图模型识别水军用户的方法。(2)Sp Ea g l e 2 对用户、评论与商品组成的马尔科夫随机场进行概率推算的识别器

26、。(3)Box14:基于SVD 的识别器,利用子图密度寻找小规模的可疑用户(4)Fraudar1:找出所有用户中最善于伪装的水军簇的识别器。(5)FBS:基于用户行为特征的水军识别器。水军攻击策略:采用Dou等 6 提出的IncBP、In-cDS、In c PR、Si n g l e t o n 攻击方法,具体如下:(1)In c BP:利用VIP用户,尽量避开利用用户行为特征的FBS识别器和利用图形信息的GANG和SpEagle识别器。具体是利用在用户节点组成的马尔科夫随机场上进行置信传播,用可疑度最低的用户节点发布水军的虚假评论。(2)IncDS:每轮先计算用户节点组成的子图密度,用子图密

27、度最小的用户节点发布水军的虚假评论。(3)In c PR:每轮攻击前计算用户行为特征的可疑程度,用可疑程度最小的用户节点发布水军的虚假评论。(4)Si n g l e t o n:创建新用户,用新用户发布水军的虚假评论。训练过程如图2 所示。开始水军识别算法和水军攻击方法选择识别策略和攻击策略计算当前策略下的PE根据PE更新水军识别策略根据PE更新水军攻击策略文计算当前策略下的PEN选代至PE收敛IY输出水军识别策略结束图2训练过程水军攻击的实际效应:假设p为水军的攻击策略,q为识别器的策略,R(p,q)则为水军策略为p、识别器策略为时一轮攻击之后未被识别出的水军用户。这轮水军攻击的实际效应算

28、法如下:PE(v;R,P,q)=f(v;R(p,q)-f(v;R)水军的目标就是优化策略p,使PE(;R,P,9)的值最大化。识别器的实际目标:优化识别策略q,使PE(u;R,P,q)的值最小化。水军和识别器的目标已经确定:水军要使目标商品的销售额提升,而识别器要抑制这种提高。双方将在实际的场景中进行零和博奔,假设水军攻击策略为p,识别器策略为g,则双方的博奔目标:minmax Zmax(0,PE(v;R,p,q)VE利用上述的几种水军识别算法和水军攻击算法进行训练,最终训练出Hybrid detect。如此训练出的水军识别算法为当前环境下性能最优的水军识别算法。3实验实验运行环境为:Wind

29、ows10操作系统,2.90 GHz6核处理器,16 GB内存,算法的性能实验利用PyC-harm软件实现。3.1衡量指标f(v;R)=。RI(v;R)+,ERI(v;Re()其中,ERI用来计算VIP用户评论的影响,RI用来计算所有用户评论的影响。和,是两种影响的系数,=0.035,1=0.036。这两个系数的值是用Yelp的数据估算的。3.2数据集为准确地验证本文所提算法的效果,准备了2 套数据集。第一套为公开数据集YelpChi1,数据集中包含标记的水军的虚假评论和正常评论。第二套数据集(YMX)通过购买的方式获得,其中有30 0 条水军的虚311穆云翔,等:基于极小极大博奔的水军识别算

30、法研究第3 期假评论为新用户所发,正常评论是公开数据集YelpNYC中被标记的正常评论。两套数据集均是在Yelp平台获得的数据。YMX将作为训练集使用,YelpChi将作为测试集使用。两个数据集的详细情况如表4所示。表4数据集详细信息YMXYelpChi用户数量3564238063评论数量6634867395商品总数105201水军评论数量800450正常评论数量6554837613水军攻击策略设置:在测试集中共添加6 0 0 条水军的虚假评论,包含450 个用户和10 0 件商品。识别策略设置:每一次识别器进行节点可疑度计算之后,将可疑度排名靠前的1%节点作为水军删除。VIP用户选择:由于无

31、法从Yelp抓取这些用户的VIP信息,Yelp将用户评论的数量作为是否为VIP的关键因素,因此把每个数据集中单个用户评论超过10 条的作为VIP用户,分别占YelpChi的1.4%,YMX的1.2%。3.3FBS算法的验证为验证FBS算法在Hybrid detect中的有效性和其在识别模型中的影响,在本文所构建的水军识别模型的基础上,将利用加人FBS的Hybrid detect和未加FBS的Hybriddetect在数据集YelpChi的实际效应进行对比,实验结果如图3所示。4.24.143.93.83.73.63.53.4包含FBS不包含FBS图3不同的Hybriddetect的实际效应由图

32、3可以看出,不包含FBS的Hybriddetect的实际效应高,能达到4.11。而加入FBS之后,实际效应能够降到3.6 9,说明FBS能够有效地识别出原本识别不出的网络水军,使模型性能提高。3.4对比算法为验证本文算法的有效性,实验选择的对比算法有GANG、Sp Ea g l e、f Bo x、Fr a u d a r、Na s h d e t e c t 算法。首先验证了以GANG、Sp Ea g l e f Bo x、Fr a u d a r、Pr i o r 算法为基础训练出的Nash detect在数据集(YelpChi)上的效果,再验证以GANG、Sp Ea g l e、f Bo

33、x、Fr a u d a r、FBS算法为基础在训练出的Hybriddetect在数据集(YelpChi)上的效果,以此验证引入 FBS 的有效性。再将Hybriddetect与当前先进的水军识别模型TowFace做对比。3.5Hybriddetect性能测试表5显示了单个识别器面对单个攻击时的实际效果。可以看到,每个识别器只有识别特定类型的水军效果较好。如果识别器选用了单个的识别器,那么水军可以采用相应策略使其效果大大减弱表5识别器对抗各种攻击的实际效果IncBPIncDSIncPRSingletonFBS4.8872.8974.8970.559GANG4.8924.9014.9010.56

34、4SpEagle4.8874.8974.8970.559fBox4.8774.8854.8850.532Farudar2.014.8853.1340.532在训练阶段,每种识别器的权重每一轮都在改变,变化如图4所示,每种识别算法的遗漏水军数量如图5所示。0.4-GANGFBS0.35SpEaglefBox0.3-Fraudar0.250.20.150.10.050204060Episode图4每种识别器在多轮博奔后的权重从图4可以看出,Hybriddetect在前40 轮训练中,各水军识别算法的权重都在平稳地向最优配置移动。并且在40 轮训练之后,各个权重都已趋于平稳,说明此时Hybridde

35、tect已经收敛到最优配置。-Hybriddetect410NashdelectTwoFace3603102600204060Episode图5每种识别器每轮未检测到的水军数量大312息报程都成第38 卷学信学从图5可以看出,Hybriddetect在40 轮训练后漏检的水军数量是最少的,并且在40 轮后漏检水军数量也不会发生明显变化,这一结果也和图4的结论相同。在训练阶段,在训练集上进行了6 0 轮训练,混合识别器在最终训练完成后PE值明显低于Nashdetect和TowFace。混合识别器在测试集上也取得了最优的成绩,其PE值达到3.6 9,而其余识别器的PE值都高于3.9,性能提升约8%

36、。结果如图6 和图7 所示。5Nashdetect4.8hybriddetecTwoFace4.64.44.243.83.63.43.2204060Episode图6每种检测器在多轮博奔后的实际效应4.64.44.243.83.63.43.23HybriddetectNashdetectTwoface识别器种类图7几种识别器在测试集的实际效应4结束语分析了现有的水军识别器存在的一些问题,利用博奔论的知识对现有识别器进行改进。针对不同场景的水军,只要设计好目标函数、攻击方法和识别器,通过运行该算法,就可以在线下找到最优的识别器配置。为解决传统水军识别方法中存在的一些问题,提出一种新的水军识别方法

37、,该方法能充分利用用户信息的特征。最后,将 Hybrid detect 与 Nash detect、T w o Fa c e这两种识别器进行对比,实验结果表明本文的方法具有更好的性能。参考文献:1Mukherjee A,Venkataraman V,Liu B,et al.Whatyelp fake review filter might be doing?C.Pro-ceedings of the International AAAI Conference onWeb and Social Media.2013,7(1):409-418.2Rayana S,Akoglu L.Collecti

38、ve opinion spam de-tection:Bridging review networks and metadataC.Proceedings of the 21th acm sigkdd interna-tional conference on knowledge discovery and datamining.2015:985-994.3Luca M.Reviews,reputation,and revenue:Thecase of YJ.Com(March 15,2016).Harvard Business School NOM Unit Working Pa-per.20

39、16,12(16):175-216.4Leone,Michele,Sum ed ha,et al.Clustering bysoft-constraint affinity propagation:applications togene-expression data.J.Bioinformatics,2007,23(20):2708-2715.5Kotsiantis S B.Supervised Machine Learning:AReview of Classification TechniquesJ.Informat-ica,2007,31:249-268.6Dou Y,Ma G,Yu

40、P S,et al.Robust spammerdetection by nash reinforcement learning C.Pro-ceedings of the 26th ACM SIGKDD InternationalConference on Knowledge Discovery&Data Min-ing.2020:924-933.7Mccord M,Chuah M.Spam Detection on TwitterUsing Traditional Classifiers C.Autonomic&TrustedComputing-internationalConferenc

41、e.DBLP,2011:175-186.8Li J,Ott M,Cardie C,et al.Towards a generalrule for identifying deceptive opinion spam C.Proceedings of the 52nd Annual Meeting of the As-sociation for Computational Linguistics(Vo l u me1:Long Papers).2014:1566-1576.9Noekhah S,binti Salim N,Zakaria N H.Opinionspam detection:Usi

42、ng multi-iterative graph-basedmodel J.Information Processing&Manage-ment,2020,57(1):102140.10Wang X,Kang L,Zhao J.Handling Cold-StartProblem in Review Spam Detection by JointlyEmbedding Texts and Behaviors C.Meeting ofthe Association for Computational Linguistics.2017:366-376.11Hooi B,Song H A,Beute

43、l A,et al.Fraudar:Bounding graph fraud in the face of camouflage C.Proceedings of the 22nd ACM SIGKDD in-ternational conference on knowledge discoveryand data mining.2016:895-904.313穆云翔奔的水军识别算法研究第3 期12Wang B,Gong N Z,Fu H.GANG:Detectingfraudulent users in online social networks viaguilt-by-associati

44、on on directed graphs C.2017IEEE International Conference on Data Mining(ICDM).IEEE,2017:465-474.13Si-CaiHU,Su n J P,Sh e n g-G e n JU,e tal.Chinese emotion feature selection methodbased on the extended emotion dictionary and thechi-square model J.Journal of Sichuan Univer-sity(Natural Science Editi

45、on),2019,56(1):37-44.14Shah N,Beutel A,Gallagher B,et al.Spottingsuspicious link behavior with fbox:An adversarialperspective C.2014 IEEE International confer-ence on data mining.IEEE,2014:959-964.15孙文,网络新闻评论用户行为分析及水军识别方法研究 D.杭州:杭州电子科技大学,2 0 19.16任亚峰,姬东鸿,张红斌,等基于PU学习算法的水军的虚假评论识别研究 J计算机研究与发展,2 0 15,52

46、(3):6 39-6 48.17Gatterbauer W,S Ginnemann,Koutra D,et al.Linearized and Single-Pass Belief PropagationJ.Proceedings of the Vldb Endowment,2014,8(5):581-592.18Kaghazgaran P,Caverlee J,Squicciarini A.Combating crowdsourced review manipulators:Aneighborhood-based approach C.Proceedingsof the Eleventh A

47、CM International Conference onWeb Search and Data Mining.2018:306-314.19Miller F P,A F Vandome,J Mcbrewster.AmazonMechanical Turk.C.Alphascript Publishing.2021:308-331.20Mukherjee A,Kumar A,Liu B,et al.Spottingopinion spammers using behavioral footprintsC.Proceedings of the 19th ACM SIGKDD in-ternat

48、ional conference on Knowledge discoveryand data mining.2013:632-640.21Y Chen,C Lou.Research on the formation path offake reviews of online goods J,Modern Intelli-gence.2015,8(10):49-53.Research on the Algorithm of Online Water ArmyRecognition based on Minimax GameMU Yunxiang,SHENG Zhiwei,LU Jiazhong

49、(College of Cyberspace Security,Chengdu University of Information Technology,Chengdu 610225,China)Abstract:With the Internets development,more and more users complete shopping and dining online.At the sametime,the public will also tend to refer to online comments first.The important guiding role of

50、comments in user decision-making gave birth to the network Navy.For its interests or other bad motives,the online Navy will release evaluationsthat are inconsistent with the experience.And the Navy will adjust its strategy at any time to to avoid the platforms rec-ognition.This paper proposes a beha

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 自然科学论文

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服