1、NETINFOSECURITY2024年第2 期技术研究doi:10.3969/j.issn.1671-1122.2024.02.015关注社交异配性的社交机器人检测框架一余尚戎1.2.3,肖景博1.2 3,般琪林1.2 3,卢伟1.2 3,(1.中山大学计算机学院,广州510 0 0 6;2.中山大学信息技术教育部重点实验室,广州510 0 0 6;3.广东省信息安全技术重点实验室,广州510 0 0 6)摘要:随着社交机器人的迭代,其倾向于与正常用户进行更多交互,对其检测变得更具挑战性。现有检测方法大多基于同配性假设,由于忽视了不同类用户间存在的联系,难以保持良好的检测性能。针对这一问题文
2、章提出一种关注社交异配性的社交机器人检测框架,以社交网络用户间的联系为依据,通过充分挖掘用户社交信息来应对异配影响,并实现更精准的检测。文章分别在同配视角和异配视角下看待用户之间的联系,将社交网络构建为图,通过消息传递机制实现同配边和异配边聚合,以提取节点的频率特征,同时利用图中各节点特征聚合得到社交环境特征,将以上特征混合后用于检测。实验结果表明,文章所提方法在开源数据集上的检测效果优于基线方法,证明了该方法的有效性。关键词:社交机器人检测;同配性与异配性;图神经网络中图分类号:TP309文献标志码:A文章编号:16 7 1-112 2(2 0 2 4)0 2-0 319-0 9中文引用格式
3、:余尚戎,肖景博,般琪林,等,关注社交异配性的社交机器人检测框架.信息网络安全,2024,24(2):319-327.英文引用格式:YU Shangrong,XIAO Jingbo,YIN Qilin,et al.A Social Heterophily Focused Frameworkfor Social Bot DetectionJ.Netinfo Security,2024,24(2):319-327.A Social Heterophily Focused Framework for Social Bot DetectionYU Shangrongl.2.3,XIAO Jingbol
4、.23,YIN Qilin.2.3,LU Weil,2.3(1.School of Computer Science and Engineering,Sun Yat-sen University,Guangzhou 510006,China;2.Ministry ofEducation Key Laboratory of Information Technology,Sun Yat-sen University,Guangzhou 510006,China,3.Guangdong Province Key Laboratory of Information Security Technolog
5、y,Guangzhou 510006,China)Abstract:As social bot technology advances,these bots increasingly interact withhuman users,making their detection a more challenging problem.Existing detection methodsprimarily rely on the homophily assumption,often overlooking the connections betweendifferent classes of us
6、ers,particularly the impact of heterophily.This oversight impairs theirdetection performance.To address this issue,this paper presented an innovative social botdetection framework that emphasizes social heterophily.It leveraged user connections within收稿日期:2 0 2 3-10-31基金项目:国家自然科学基金U2001202,62072480作
7、者简介:余尚戎(1999一),男,湖北,硕士研究生,主要研究方向为多媒体内容安全;肖景博(2 0 0 1一),男,河南,硕士研究生,主要研究方向为多媒体内容安全;般琪林(1995一),男,江苏,博士研究生,主要研究方向为数字多媒体取证;卢伟(197 9一),男,河南,教授,博士,CCF会员,主要研究方向为人工智能安全与对抗、信息取证与安全。通信作者:卢伟319NETINFOSECURITY技术研究2024年第2 期social networks and extensively explored various types of social information to mitigatethe
8、 effects of heterophily and achieved more accurate detection.This paper examined userrelationships from both homophily and heterophily perspectives.It constructed the socialnetwork as a graph and employed a message-passing mechanism to aggregate informationfrom both homophilic and heterophilic edges
9、,allowing for the extraction of frequency-basednode features.Furthermore,it aggregated features from various nodes within the graph togenerate social context features.These features are then blended and utilized for the detectiontask.The experimental results validate the methods superiority over com
10、parative approacheson publicly available datasets,confirming its effectiveness.Key words:social bot detection;homophily and heterophily;graph neural network0引言随着互联网技术的发展和移动互联网设备的普及,国内外涌现出大量的社交媒体平台,上亿用户每天在其中产出和获取信息。在社交媒体正常用户不断增多的过程中,社交机器人账号数量也不断增长。社交机器人是在社交媒体平台上自动生成内容、参与人类社交互动且无物质实体的自动程序型智能体。最初,社交机器人
11、为社交媒体用户提供一些便捷服务,如图片格式转码。但是,社交机器人在之后遭到了滥用,更多被用于窃取用户的个人隐私信息、传播虚假信息、推广极端主义和干扰全球政治选举活动等。例如,2 0 17 年美国总统选举期间,社交机器人传播了大量虚假新闻!I以影响大众的判断;在2 0 2 0 年新型冠状病毒疫情期间,社交机器人活跃在病毒溯源话题中;WENG2等人提出某实验室泄露理论盛行期间的推特(Twitter)数据中参与讨论的账户中有2 9%是社交机器人。社交机器人的安全问题引发了广泛担忧,因此,如何有效检测这些社交机器人账号成为热门课题。在过去10 年中,社交机器人检测方法经历了多个发展阶段,包括基于众包平
12、台的方法3、基于机器学习的方法4,5以及基于深度学习的方法6,等,这些方法在提高检测效率和性能方面都取得了显著的进展。近年来,随着图神经网络技术在处理非结构化数据和复杂关系方面成功应用,社交机器人检测领域也有了新突破。研究人员将图神经网络技术引人社交机器人检测任务,提出了一系列基于图神经网络的检测方法8-1。这些方法将社交网络中的用户视为图中的节点,将用户之间的联系视为图中的边,同时充分利用包括用户账号信息和用户发布的推文等社交元数据作为节点的初始特征,成功构建了社交图。由于充分利用社交信息以及图神经网络出色的特征表达能力,这些基于图的检测方法在社交机器人检测中取得了卓越的性能。社交机器人技术
13、同样得到了发展与更迭,主要体现在对抗性的增强上。近期有研究12,13指出,“重对抗”的社交机器人倾向于改变原来单一的社交行为模式,通过与正常用户进行更多交互来伪装自身,这给社交机器人的检测带来了新的挑战。未来,在社交网络中“重对抗”的社交机器人数量不断增加的趋势下,上述基于图的检测方法将愈发难以区分正常用户中的社交机器人。这是因为其模型对节点特征的处理是基于同配性假设14(Homophily Assumption)。同配性假设认为存在边的节点更可能属于相同的类别或具有相似的特征,它体现在图神经网络的信息聚合中,每个节点特征都由自身与邻居节点的特征混合所得,而基于同配性假设的方法在同配程度高的场
14、景下(如论文分类15等)表现卓越。然而,由于忽视了异配(Heterophily)带来的影响,即图中存在边的两节点属于不同类别,随着图的同配程度降低,信息聚合过程中大量节点被通过异配边的节点信息所影响,导致最终的节点特征难以区分。图1展示了简化的社交图,其中箭头代表社交用户之间的追随(Following)关系,社交机器人和正常用户的初始特征分别用灰色和白色表示。经过信息聚合,位于图中间的社交机器人受异配边的影响,320NETINFOSECURITY2024年第2 期技术研究其特征被正常用户的特征稀释,在进行检测时可能被错认为是正常用户。8社交机器人图1信息聚合中异配边的影响面向当前和未来的社交机
15、器人,检测方法必须特别注重处理图的异配性,主动克服异配边可能带来的负面影响,以确保在信息聚合过程中同类节点的特征更加相似,而不同类别节点的特征具有更高的可区分性。本文提出一种关注社交异配性的社交机器人检测框架,以社交网络用户之间的联系为依据,充分挖掘各类社交信息来应对异配带来的挑战并实现更精准的检测。同时,对于社交用户之间的联系,即社交图节点间的边,本文在特征提取时分别视其为同配边和异配边,并通过消息传递机制实现的同配边聚合和异配边聚合分别聚合其连接的节点特征。其中,异配边聚合得到节点的高频特征,关注节点自身特性;同配边聚合得到节点的低频特征,关注邻居特性。另外,利用图中各节点特征聚合得到社交
16、环境特征,将其与之前得到的节点频率特征自适应混合后用于检测。由上述三者整合而成的特征反映了节点的本质属性,能够在异配影响下较好地区分社交机器人与正常用户。本文的主要贡献如下:1)本文提出了一种关注社交异配性的社交机器人检测框架,能够在异配影响下实现对社交机器人和正常用户的有效区分;2)本文在同配、异配视角下看待社交图中的边,并通过消息传递机制实现了同配边和异配边的聚合操作,以实现对异配影响的适应;3)本文在两个开源社交机器人检测基准数据集上进行实验,检测性能均优于对比方法,消融实验证明所提方法的有效性。1相关工作基于图神经网络的社交机器人检测方法的发展与社交网络规模的增加以及社交信息的扩展紧密
17、相关。ALI8等人先使用账户和账户间的社交关系分别作为节信息聚合点和边,将社交网络构建为社交图,使用账户元数据8特征构造账户的初始特征,再利用多层图卷积神经网络学习账户的社交图特征,将其输入分类网络进行分正常用户异配边同配边类。YANG16等人提出了一种基于注意力的图神经网络,该网络利用图卷积算子自动捕捉社交网络中的聚合模式。随着大规模社交机器人检测基准数据集TwiBot-2017和TwiBot-2218的出现,社交关系和社交网络规模都得到了扩充,一些工作通过使用更多的社交信息来提高检测准确性。Satar101通过综合使用社交信息中的语义、属性和邻域信息来生成节点特征,利用自监督方法进行预训练
18、,并在具体的社交机器人检测场景中进行微调。BotRGCN9通过社交用户之间的不同社交关系构建异构图,通过关系图卷积网络聚合不同关系的节点特征并进行分类。经历了Transformerl19在自然语言处理(Natural Language Processing,NLP)领域的大热之后,为了更好地利用大规模的社交网络数据,FENGI等人将Transformer应用在关系图神经网络中,汇聚不同关系下的节点信息形成最终的节点特征并用于分类。上述方法都基于同配性假设来设计,即正常用户和社交机器人都倾向于与同一类别的节点进行更多的交互。然而,“重对抗”的社交机器人可以通过主动与正常用户交互来躲避检测,这是由
19、于这些检测方法都没有考虑社交图的异配性。目前,社交机器人检测领域中对异配性的研究还处于初步阶段。WU201等人提出了一个关注异配性的有监督对比学习框架BotSCL,其编码器利用注意力机制处理图中相邻节点的特征生成边的权重进行信息聚合,得到待检测节点的特征;其利用对比损失指导编码器网络的训练,使得同类节点特征相似、不同类节点特征相异。321NETINFOSECURITY技术研究2024年第2 期2本文方法2.1框架整体设计与实施流程图2 展示了本文所提框架的整体设计与实施流程。从社交图出发,经过关系子图的提取、关系子图下的视角分解、消息传递网络下关系特征的提取、关系特征汇总与分类,最终得到待检测
20、节点是否为社交机器人的判断。社交图G关系子图G视角原视角提取R=10分各关系子图同配視角社交机器人同配边聚合正常用户待检测用户各社交关系:同配边异配边图2 关注社交异配性的社交机器人检测框架对于一个社交图G,社交用户节点之间往往存在多种联系,即不同的社交关系,在图中体现为不同类型的边。由于社交机器人与正常用户的社交关系偏好有别2 1,把社交图按照不同关系拆分成子图是极有必要的,可以将不同关系下的节点进行个体化处理。因此,本文通过筛去类型不属于R的边来提取原始社交图在各个社交关系下的子图GR,其中R=1,2,k,k为社交关系总数。在G中,节点之间仅存在R这一种联系,如粉丝(Follower)。提
21、取得到的关系子图中节点特征XR与社交图G中的节点特征X保持一致,其中XRERIVF,V为G中节点集合,代表集合中元素数量,F为特征维度。本文对提取到的关系子图GR进行视角分解,得到其同配视角图GR-Homo和异配视角图GR-Her,并将它们传人消息传递网络提取节点特征。基于消息传递机制,本文实现的消息传递网络包括4个步骤:1)同配边聚合。处理同配视角图,旨在有效聚合同配边的节点信息,记作MPHomo();2)异配边聚合。处理异配视角图,旨在有效聚合异配边的节点信息,记作MPHeter();3)社交环境特征提取。负责提取节点所处社交环境的特征,记作MPcraph();4)特征融合。将3种特征合并
22、在一起,得到输人关系子图中节点的关系特征,其将作为下一层网络中节点的初始特征。经过n层网络对节点特征的提取后,得到k个关系子图下的节点关系特征,将其输人分类网络中,判定是否为社交机器人的。分类网络首先对待检测节点的k个关系特征进行汇总,将它们拼接成一个特征向量;然后将特征向量输入Transformer编码器,利用多消息传递网络分类网络同能边聚合各关系中持检照牌点特鞋异配边聚仓4环境特征中特征免训特证分高异配边聚合环嫂特征节点节点低频特征高频特证Laiow节点关系特征头注意力(Multi-HeadAttention)机制捕获其中重要信关系特证汇总息;最后,将经Transformer编码器编码后待
23、检测节点i的特征向量h,输入至MLP分类器,使用全连接层和带点域超节点博中全部点社交环境特证agraSoftmax层进行分类,如公式(1)所示。=sofimax(W-h,+b)输出MLP分类(1)其中,W和b为全连接层中可学习的权重和偏置,softmax()表示Softmax层,表示模型对输人社交用户分类的预测结果。本文使用交叉熵损失作为分类网络的损失函数进行训练。2.2视角分解已有基于图的社交机器人检测方法大多是基于同配性假设的,它们只在同配视角下看待社交图中的边,这往往导致它们提取的特征对于不同类节点的区分程度不足。BotSCL指出了上述问题,并强调社交图的异配性给社交机器人检测带来了不良
24、影响。其方法利用注意力机制处理图中相邻节点的特征,并用它们来生成图中边的权重,依靠边的权重来生成节点特征,实现对异配边的适应。区别于BotSCL,本文方法对于异配边的适应是通过主动引人同配边、异配边来实现的。在视角分解中,本文把边的同配性、异配性视为图中要素,同配视角下,图中所有边都将被视作同配边;异配视角下,图中所有边都将被视作异配边。对于关系子图GR,经视角分解得到的同配视角图Gr-Homo和异配视角图Gr-Heler与之有着相同的图结构、节点特征等,只有边的同配、异配性有区别。将边的同配性、异配性作为包含节点特征、社交322NETINFOSECURITY2024年第2 期技术研究关系等在
25、内的社交图要素,本质上是对社交网络进一步贴切刻画的需求。在真实的社交网络中,社交用户并没有标签,因此无法从社交用户之间的联系中判断出他们是否属于同一类别。这时,通过引人同配边和异配边,在同配视角下,社交图中有联系的社交用户都属于同一类别,应当在特征中存在共性;在异配视角下,社交图中有联系的社交用户都属于不同类别,应当在特征中体现差异。将同配边和异配边分开处理,可以根据它们的特点进行不同的特征聚合,两者互为补充,避免了单一视角下的特征缺失。2.3消息传递网络本文使用k个结构相同的消息传递网络分别处理k个关系子图的视角分解图。对于关系子图GR,在每层消息传递网络中分别通过同配边聚合、异配边聚合得到
26、其同配视角图GR-Homo和异配视角图GR-Heter下的节点特征;通过社交环境特征提取得到G的环境特征;通过特征融合处理3种特征,最终得到R关系下该层网络的节点关系特征。2.3.1同配边聚合与异配边聚合研究2 2-2 4表明,图谱间高频部分的差异大于低频部分的差异,因此对于标签协同性较高的图(即以同配边为主的图)来说,更需要抽取低频信息以“求同”;其中WHp为可学习的参数。在节点视角下,高通滤波操作让节点特征与其邻居节点的特征做差,过滤相似特征,公式(3)等价于公式(4)。X;=0jieM()(f(x,)其中,N(i)代表节点i的邻居节点集合,()为特征分离函数,()为线性映射。图的邻接矩阵
27、A可以视作一个低通滤波器。本文利用随机游走归一化的邻接矩阵对图中节点特征进行低通滤波,得到节点的低频特征XLow如公式(5)所示。XLow=AwXWLp(5)其中,Aw=D-A,为随机游走归一化的邻接矩阵。在节点视角下,低通滤波操作让节点特征与其邻居节点的特征相加,起到拉近彼此特征的效果,公式(5)等价于公式(6)。X;=jeN(0(f(x)其中,()为特征叠加函数。本文将公式(4)和公式(6)在消息传递网络中实现,得到异配边聚合函数以及同配边聚合函数,如公式(7)和公式(8)所示。(7)1Z_1-1=XR-HeteriDRijeNr(i)(4)(6)hpwR,jxxR-Heler.j而对于标
28、签协同性较低的图(即以异配边为主的图)来说,更需要抽取高频信息来“存异”。因此对于输入关系子图Gr的两个视角图,本文重点关注对GR-Homo图中低频特征的提取和对GrR-Heter图中高频特征的提取。在谱图(Spectral Graph)理论的研究中,图拉普拉斯矩阵被广泛认为是一个高通滤波器2 5。将图拉普拉斯矩阵记作L,定义L-D-A,其中,D为图的度矩阵,A为图的邻接矩阵。本文使用其变体,随机游走归一化的拉普拉斯矩阵Lw,定义如公式(2)所示。Lrw=D-L=I-D-A利用其对图中节点特征进行高通滤波,得到节点的高频特征XHigh如公式(3)所示。XHigh=LnwXWHp=(X-D-AX
29、)WHp(8)11=oXR-Homo,i+DRijeNR(其中,网络层数/=1,2,n,x r-H e l e r,代表GRr-Heer图中节点i在第1层网络的特征,x-Homo.代表Gr-Hom图中节点i在第1层网络的特征,()为激活函数。在2.2节提到,视角分解不会改变图结构,因此在GR-Heer 和GR-Homo中i节点的度、邻居节点集合与GR一致,分别用DR.i和Nr(i)表示。hpwk)和lpwk,为第1-1层网络(2)中可学习的高通滤波权重和低通滤波权重,分别用于处理异配视角图和同配视角图。节点i的初始特征为(3),pwR.jxxR-Homo.j经过同配边聚合和异配边聚合得到 GR
30、-Heler和 Gr-Homo323NETINFOSECURITY技术研究2024年第2 期中的节点特征,它们将分别作为高频特征和低频特征,在2.3.3小节中融合得到GR中节点的关系特征。2.3.2社交环境特征提取对于社交图上的节点,除了反映其自身特性的高频特征和邻居节点特性的低频特征,还对其所处的社交网络环境特性在刻画其特征时起着重要作用。基于这样的认识,本文为关系子图GR的每个节点都创建了一个超节点,这些超节点构成的集合记作V,满足VieV,i,jeV,Bei,且#ej,。其中,eab代表一条从a指向b的边。本文用消息传递的方式获取超节点的特征,并把它作为对应关系子图节点的社交环境特征。对
31、于GR中的节点i,其超节点i在第1层网络中的特征如公式(9)所示。xhu=0(Zreygwkl xxkl)(9)其中,gw为可学习的权重。2.3.3特征融合在2.3.1和2.3.2 小节分别得到了关系子图GR中节点的高频特征、低频特征和社交环境特征,在本小节中对这3种特征进行融合,得到节点的关系特征。可学习的特征权重因子alow、a h i g h、a g r a p h 分别用于衡量低频、高频、环境特征的重要程度。对于GR中的节点i,通过公式(10)计算其关系特征。alowXR-Heter,iXR,=ahighXR-Homo,i(agraphXR,通过特征融合,关注邻居特性的低频特征、关注自
32、身特性的高频特征以及社交环境特征能够实现优势互补,所得关系特征xR能够较好适应异配边的影响,同时综合反映了待检测节点在关系R下的本质属性,有助于后续分类网络的检测任务。3实验与分析3.1实验设置3.1.1数据集为了验证所提方法的有效性,本文在公开数据集TwiBot-20和TwiBot-22上进行实验。TwiBot-20数据集是一个综合性的社交机器人检测基准,基于推特平台构建。该数据集包含推特账户2 2万余个、推文330 0 万余条、账户属性8 7 0 0 万余条、2种社交关系以及约45.6 万个社交联系。共有118 2 6 个账户经过了仔细的人工标注,将直接用于训练和测试,包括52 37 个真
33、实用户和6 58 9个社交机器人,这些账户间存在16 90 8 个社交联系,其中同类用户间的社交联系有90 2 4个,占比约为53.4%,不同类用户间的社交联系占比约为46.6%。可见TwiBot-20数据集具有一定的异配程度,异配边的影响不可忽视。数据集中剩余账户是未经标注的,将作为辅助,用于构建社交网络和提供支持。TwiBot-22数据集是目前规模较大的社交机器人检测基准,包括10 0 万个推特账户以及它们的各类社交元数据。这些账户间存在37 4万余个社交联系,其中共有14种社交关系。区别于TwiBot-20数据集,TwiBot-22中所有社交账户都经过了标注,共有8 6 0 0 57 个
34、真实用户与139943个社交机器人,其中同类用户间的社交联系占比约为8 6.43%,异配程度较TwiBot-20更低。总的来说,TwiBot-20和TwiBot-22数据集都具有丰富的用户信息,同时也包含了各种先进的社交机器T人,这使得它们成为了研究和评估社交机器人检测方法性能的理想选择。(10)3.1.2基线方法本文选取了3种在社交机器人检测中具有代表性的方法作为基线方法:1)BotRGCN!I使用MLP对向量化的社交用户信息进行预处理,然后通过两层关系图卷积层进行特征提取;2)RGT(13提出了关系图Transformer,它利用自注意机制来聚合每个关系的信息,并提出了一个语义注意模块来获
35、得不同关系视图的信息权重;3)BotSCL18通过有监督对比学习方法指导学习社交图边的权重,自适应地提取节点频率特征。3.1.3超参数设置本文在PyTorch框架下进行网络模型的搭建,实验324NETINFOSECURITY2024年第2 期技术研究中,使用TwiBot-20和TwiBot-22两个数据集共有的社交关系(粉丝与追随)构建图数据,并统一按照8:1:1的比例对数据集划分得到训练集、验证集和测试集。表1展示了本文模型的超参数设置,其中学习率、权重衰减因子和聚合特征丢弃率是超参数优化库Optuna在10 0 0 次搜索中得到的最优超参数设置。表1超参数设置超参数值优化器AdamW批大小
36、64训练轮数200学习率8e-4权重衰减因子8.9e-4聚合特征丢弃率1.38e-2Transformer编码器输人维度(2,32)Transformer编码器自注意力头2Transformer编码器层数13.1.4评估指标本文使用准确率Acc与F1-Score作为检测的评估指标,如公式(11)公式(14)所示。TP+TNAcc=TP+TN+FP+FNTPPrecision=TP+FPTPRecall=TP+FNF1-Score=2 Precision RecallPrecision+Recall其中,TP、T N、FP、FN分别代表正确预测为社交机器人、正确预测为真实用户、错误预测为机器人和
37、错误预测为真实用户的样本数量。Precision为预测精度,表示所有预测为社交机器人的账户中正确预测的比例;Recall为召回率,表示所有社交机器人账户中正确预测的比例。;Acc是预测结果正确的样本数占总样本数的比例;F1-Score综合考虑了模型精确率和召回率,是两者的调和平均数。因此,两项评估指标的值越大,表示方法的检测效果越好。3.2实验结果与分析表2 展示了对比实验的结果。其中对比方法的超参数均按照其论文中的描述进行设置。在TwiBot-20数据集中,本文方法在Acc和F1-Score两项指标上均优于基线方法;在TwiBot-22数据集中,由于存在样本类别不均衡的情况,F1-Score
38、更适合作为模型性能的评估指标,本文方法在该指标上优于基线方法。表2 对比实验结果数据集模型BotRGCN83.41%0.41%RGT83.92%0.27%TwiBot-20BotSCL本文方法84.76%0.27%BotRGCN85.02%0.29%RGT85.11%0.06%TwiBot-22BotSCL本文方法85.02%0.08%本文方法和基线方法均在不同社交关系下从社交信息中提取节点特征,其中,BotRGCN和RGT都是基于同配性假设来设计的,忽略了异配的影响,而BotSCL和本文方法在模型设计中考虑了异配的影响;BotRGCN、RG T 和本文方法均使用交叉熵损失来指导(11)模型训
39、练,而BotSCL使用对比损失训练其编码器网络,把检测作为下游任务进行。表3展示了本文方法和基(12)线方法的模型参数规模。(13)表3各模型参数规模模型本文/KBBotRGCN/KB(14)参数规模153在TwiBot-20数据集上,BotRGCN性能相对较差,可能的原因是其模型聚合了过多的低频信息,难以适应异配边的影响;当数据集变为异配程度较低的TwiBot-22时,BotRGCN性能有所改善。同样基于同配性假设设计的RGT方法,由于其注意力机制的存在,可以灵活调整社交图中边的权值,这在一定程度上降低了聚合过多低频信息的可能,从而获取良好的性能。BotSCL和本文在方法在设计上都考虑了异配
40、的影响,因此在异配边比例较高的TwiBot-20上性能相对较优。而在TwiBot-22上,得益于低频信息和高频信息的相互补充,本文方法相较于BotSCL表现出更好的适应能力。本文模型既聚合了由同配边传递的低频信息又聚合了经异配边传递的高频信息,能够较好适应异配的Acc83.81%0.42.%84.82%0.15%17.666F1-Score85.94%0.36%86.57%0.17%86.47%0.26%87.15%0.21%64.46%1.7%64.61%0.21%62.58%2.78%65.97%1.57%RGT/KBBotSCL/KB66973.744325NETINFOSECURITY
41、技术研究2024年第2 期影响。此外,本文方法融合了社交环境的特征,3种特征优势互补可使本文模型取得较好性能。为了对模型提取的特征有更直观的认识,本文导出各模型提取的节点特征并对其进行可视化。首先,本文使用与对比实验中相同的实现方法训练各模型,然后通过截留每个模型中输入至分类器的特征来获得该模型提取的节点特征,最后使用t-SNE26将特征的维数降低到二维空间上。其中,本文模型提取的特征截留自输人MLP分类器的特征。图3展示了在 TwiBot-20数据集中对 BotRGCN、RG T、BotSCL和本文模型提取的节点特征进行可视化的结果。a)原始C)BotRGCNd)RGT图3t-SNE可视化结
42、果从图3a)可见,TwiBot-20中各节点的原始特征较为分散,对于不同类别的节点难以区分。经众模型提取的不同类别节点特征均能形成区分,但区分程度存在差异。3个基线方法提取的特征与本文方法提取的特征相比,节点特征混淆的程度仍然较高,图3c)的中部区域存在大面积节点特征混淆,图3d)的底部和图3e)的中部均存在一定程度的节点特征混淆。综上所述,本文方法在提取节点特征上有优势,能够有效提取有区分性的节点特征。另外,这也解释了模型检测性能好的原因。3.3消融实验与分析为了进一步论证本文方法设计的有效性,在TwiBot-20数据集上进行消融实验。在保持其他部分不变的情况下,以社交环境特征为检测基线,分
43、别将同配、异配边聚合提取到的低频、高频特征单独或组合后与之一同传人分类网络进行分类。表4展示了不同特征参与下模型的检测性能。结果显示,无论同配边聚合得到的低频特征还是异配边聚合得到的高频特征对于分类都是有益的。分别将其与社交环境特征融合后传分类网络,相比仅由社交环境特征进行检测,检测Acc分别提升了0.33%和0.7 1%,F1-Score也得到0.2 9%和0.35%的提升,可见高频特征对分类的促进作用更明显;低频特征与高频特征一同使用时检测性能最好,较两者单独使用时检测Acc分别提升了0.99%和0.6 1%,F1-Score分别提升了0.7 8%和0.7 2%,这体现了各特征之间的优势互
44、补,也证明了本文方法设计的有效性。表4使用不同特征的检测性能低频特征高频特征环境特征X83.44%b)本文83.77%84.15%84.76%此外,观察到图3b)中经本文方法提取特征的正负样本在t-SNE可视化结果上已经具备清晰的分类边e)BotSCL界,为探究分类网络中Transformer编码器的必要性,本文在TwiBot-20上进行了消融实验。实验中,在原分类网络中移除Transformer编码器,直接将关系特征汇总后的节点特征输人MLP分类器进行分类,表5展示了实验结果。其中,直接用MLP分类器进行分类的模型在两项评估指标中均低于使用了Transformer编码器进行处理的模型。这表明
45、Transformer编码器对节点特征的处理有助于实现高精准的分类。表5分类网络消融实验MLPTransformer编码器4结束语本文提出了一种关注社交异配性的社交机器人检测框架,分别在同配和异配视角下看待用户之间的联AccAccF1-Score83.90%86.52%84.76%87.15%Fl-Score86.08%86.37%86.43%87.15%326NETINFOSECURITY2024年第2 期技术研究系,通过消息传递机制实现同配边聚合和异配边聚合,从而提取节点的频率特征,同时利用图中各节点特征聚合得到社交环境特征,将其融合后用于检测。实验结果表明,本文方法能够有效提取有区分性的
46、节点特征,在开源数据集上有较好的检测性能。本文方法也存在一定的局限性,对于社交网络中用户节点特征的刻画,本文方法使用其统计特征和包括推文和用户描述在内的文本特征,而真实的社交网络中的用户特征是多模态的,包含文本、图像、音视频等各类特征。未来研究中,尽可能多地利用用户的社交信息或让模型提取更有区分度的用户表征,从而提升检测精度。尽管如此,本文方法在现有条件下对用户特征的挖掘仍提供了有价值的见解,并为相关领域的进一步研究奠定了基础。参考文献:1 BESSI A,FERRARA E.Social Bots Distort the 2016 Us PresidentialElection Online
47、 Discussion.First Monday,2016,16(21):7-11.2 WENG Zixuan,LIN Aijun.Public Opinion Manipulation on SocialMedia:Social Network Analysis of Twitter Bots During the Covid-19PandemicEB/OL.(2022-12-07)2023-10-20.https:/ WANG Gang,MOHANLAL M,WILSON C,et al.Social TuringTests:Crowdsourcing Sybil DetectionEB/
48、OL.(2012-12-07)2023-10-20.https:/arxiv.0rg/pdf/1205.3856.pdf.4 DAVIS C A,VAROL O,FERRARA E,et al.Botomot:A System toEvaluate Social BotsC/ACM.25th International Conference Companionon World Wide Web.New York:ACM,2016:273-274.5 DEWANGAN M,KAUSHAL R,Socialbot:Behavioral Analysis andDetectionC/Springer
49、.4th Intemational Symposium on Security in Computingand Communications(SSCC).Heidelberg:Springer,2016:450-460.6 KUDUGUNTA S,FERRARA E.Deep Neural Networks for BotDetectionl.Information Sciences,2018,467:312-322.7 PING Heng,QIN Sujuan.A Social Bots Detection Model Based onDeep Learning AlgorithmC/IEE
50、E.18th IEEE Intermational Conference onCommunication Technology(ICCT).New York:IEEE,2018:1435-1439.8 ALI A S,BIN T R,NAJAFI P,et al.Detect Me If You Can:SPAM BotDetection Using Inductive Representation LearningC/ACM.CompanionProceedings of the 2019 World Wide Web Conference.New York:ACM,2019:148153.