1、浙江大学学报(理学版)Journal of Zhejiang University(Science Edition)http:/ 51 卷第 1 期2024 年 1月Vol.51 No.1Jan.2024 面向社会关系网络的数字金融欺诈检测研究进展刘华玲,许珺怡,曹世杰,刘雅欣,乔梁(上海对外经贸大学 统计与信息学院,上海 201620)摘要:在金融科技兴起的新时代,数字技术是金融业未来发展的核心驱动力,基于数字技术的欺诈检测成为新的研究热点。金融欺诈检测技术研究由传统的提升专家经验、优化机器学习模型转向探索面向社会关系网络的图机器学习方法。聚焦社会关系网络,基于网络分析的发展历程,从检测异常
2、个人、可疑团伙和不良中介 3类主体的视角,对金融欺诈检测的核心工作、典型应用进行了综述;归纳分析了面向社会关系网络不同类别的数字金融欺诈检测技术;并给出了面向社会关系网络的数字金融欺诈检测研究的发展趋势和方向。关键词:大数据;人工智能;社会关系网络;欺诈检测;反欺诈中图分类号:TP 391 文献标志码:A 文章编号:10089497(2024)0104114LIU Hualing,XU Junyi,CAO Shijie,LIU Yaxin,QIAO Liang(School of Statistics and Information,Shanghai University of Interna
3、tional Business and Economics,Shanghai 201620,China)Research progress of digital financial fraud detection oriented to social relations network.Journal of Zhejiang University(Science Edition),2024,51(1):4154Abstract:In the new era of fintech,digital technology is the core driving force of the future
4、 development of financial industry.With the new technology and the risk of financial fraud escalating,fraud detection based on digital technology has become a new research hot spot.Meantime the research direction of financial fraud detection technology has shifted from traditional methods of improvi
5、ng expert experience and optimizing machine learning models to exploring graph machine learning methods for social network.This article focuses on social network,based on the development process of network analysis,from different perspectives of detecting abnormal individuals,suspicious groups and u
6、nhealthy intermediaries,with different technical methods of digital financial fraud detection as the main line,the existing social-oriented relational network fraud identification methods are investigated,and the future research trends and directions of digital financial fraud detection technologies
7、 are highlighted.Key Words:big data;artificial intelligence;social network;fraud detection;anti-fraud0引 言近年来,随着大数据、人工智能、云计算等先进数字技术的成熟,根植于数字技术的金融业务快速发展,催生出数字金融新业态。传统金融行业逐渐向线上转移,金融欺诈形式不断更新、日趋复杂,具有手段多样、隐蔽性强、涉及范围广等特点1。欺诈事件从传统的个人作案转向有组织、成规模的团伙作案,其背后通常有一条完整的犯罪产业链,数字金融欺诈的出现为传统的金融反欺诈带来了全新的挑战。数字金融欺诈渗透于各种业务场景
8、,包括支付平台、电子商务、个人保险、小额借贷、供应链金融、消费金融等领域。相比于传统欺诈,数字金融欺诈DOI:10.3785/j.issn.1008-9497.2024.01.006收稿日期:20211220;修回日期:20221203;接受日期:20221209;出版日期:20240125.基金项目:国家自然科学基金资助项目(71874106).作者简介:刘华玲(1964),ORCID:https:/orcid.org/0000-0002-3980-6955,女,博士,教授,主要从事知识管理与智能决策、数据挖掘、互联网金融研究,E-mail:.浙 江 大 学 学 报(理学版)第 51 卷更具
9、组织性和规模效应,数字技术的虚拟特性使得欺诈更加隐蔽和难以识别。欺诈检测的主要任务是防范不符合规定的交易。国内外银行在传统反欺诈管理中主要依赖专家经验,依据业务经验人工制订检验规则,但此类方法在实际应用场景中无法全面覆盖欺诈行为,且专家规则难以跟上欺诈手段的更新换代。机器学习方法通过学习历史数据训练合适的模型对未知问题进行预测,近年来被广泛应用于反欺诈领域。目前适用于数字金融欺诈检测场景的机器学习技术分为有监督方法和无监督方法两类2。有监督方法依赖历史交易数据,从中分析欺诈模式,通过训练模型对新近交易进行分类。无监督方法将交易数据分布中的异常值视为欺诈交易,并从中发现规律。较为常见的基于有监督
10、方法的欺诈检测技术是人工神经网络(ANN)3-4,可以处理海量数据,性能良好。随后发现以随机森林为代表的集成方法2,当输入特征较多以及在处理网络特征时,表现更优良。之后,元学习5、基于案例的推理6、贝叶斯信念网络7、决策树8、逻辑回归9、隐马尔可夫模型10、关联规则11、支持向量机9、贝叶斯最低风险12-13和遗传算法14等监督学习技术相继被提出。无监督方法适用于不了解数据集各条记录所属类别的情况,通过查找组或数据中的异常值,判断可疑交易。MONAMO等15采用基于剪枝的 K-Means 聚类算法检测比特币网络中的可疑活动,但该方法仅适用于检测局部异常值,MONAMO 等16又将能检测全局异常
11、值的KD-Tree 算法与基于剪枝的 K-Means 聚类算法相结合,在真实的比特币数据集中有效检测出了部分欺诈交易。RAI等17采用基于神经网络(NN)的无监督学习技术,检测了信用卡欺诈,该方法优于现有的自动编码器(AE)、局部异常因子(LOF)、孤立森林(IF)和 K-Means聚类方法,在欧洲信用卡数据集欺诈行为检测中准确率较高。有监督机器学习算法更关注显式欺诈特征,这要求研究人员在识别有用的数据特征方面具有一定的专家经验,其检测准确性在有历史标签的情况下往往高于无监督学习算法18。此外,欺诈者通常以团伙的形式作案,向平台申请贷款时提供的信息通常存在一定的关联性,而传统的机器学习方法很难
12、捕获欺诈者之间的关联信息。基于网络分析的欺诈识别方法为有效挖掘网络中潜在的欺诈特征和特殊的关联关系提供了新视角,将传统欺诈检测模型与网络分析技术相结合的方法备受关注。本文旨在归纳结合网络分析技术的现代数字金融欺诈识别方法,首先,阐述社会关系网络的概念,以及网络分析的发展历程;其次,分别从挖掘异常个人、可疑团伙以及不良中介的视角出发,归纳面向不同人群的金融欺诈检测任务及其典型应用,同时依据数字金融欺诈检测模型使用的关键技术,对不同类别的数字金融欺诈检测技术进行归纳分析;再次,总结数字金融欺诈检测在实践过程中面临的挑战;最后,给出面向社会关系网络的数字金融欺诈检测研究的发展趋势和方向。1相关概述1
13、.1社会关系网络社会关系网络是指由个体之间的相互作用和联系所形成的复杂网络结构,其描述的是个体之间的社会联系、互动和关系的模式和组织方式。社会关系网络中的节点可以代表各种实体或虚拟个体,如个人用户、特定组织、交易 ID 等,这些节点可以是网络中的参与者或成员。连边则代表不同类型的社会关系,这些社会关系可以是多样化的,包括但不限于亲友关系、合作关系、交易关系、信息传递关系等。亲友关系表示个体之间的家庭、友谊或其他亲密关系;合作关系表示个体之间的合作、协作或联盟关系;交易关系表示个体之间的经济交易或商业合作;信息传递关系表示个体之间的信息交流、消息传递或社交媒体互动等。社会关系网络视角为社会实体结
14、构提供了一种分析方法,并通过社会关系网络分析理论解释在这些结构中观察到的模式,基于社会关系网络视角的研究通常关注社会实体(如个人、组织、团体等)之间的关系和连接,并研究这些关系如何影响信息传播、资源流动、权力结构和行为模式等。社会网络分析通过定义局部和全局模式,定位有影响力的实体以及观测网络的动态演变规律,帮助理解社会实体结构和模式。1.2网络分析的发展历程KLERKS19详细调查了网络分析的范式,并将网络分析的发展分为三代。第一代网络分析为人工手动收集和审查数据,此过程需耗费大量的时间和精力,且只能在有限的范围内对研究群体进行调查。第二代网络分析借助图论和可视化工具建立社会关系网络,主要用于
15、研究罪犯之间的社交关系,代表性工具有 the IBM Analysts notebook20、CrimeNet21、XANALYS link explorer(早 期 称 为 Watson)和COPLINK22,虽然可生成社会网络的图形表示,但缺少高级分析功能,无法找到网络的结构特性。第42刘华玲,等:面向社会关系网络的数字金融欺诈检测研究进展第 1期三代网络分析基于高级算法,运用数据挖掘方法探索网络的结构特征,关注网络中存在的子群、各子群之间的交互效应、网络的总体结构以及子群中的关键人物等问题,主要方法有社会网络分析(SNA)、动态网络分析、恐怖分子网络分析以及语义网络分析等传统方法,其中,
16、社会网络分析方法对于探索网络结构效果显著21。社交网络技术旨在通过检测子群23,发现其交互模式,并识别网络中的核心成员24-25,分析参与者在社交网络中所处的位置,因此社会网络分析方法被广泛用于犯罪网络检测。近年来,面向社会关系网络的机器学习方法逐渐兴起,一种是以 DeepWalk26、Node2Vec27为代表的 基 于 随 机 游 走 的 网 络 表 示 学 习,另 一 种 是 以GCN28、GraphSAGE29、GAT30为代表的基于图形数据运行深度学习架构的图神经网络。网络表示学习将网络节点的结构信息映射为低维向量,这些低维向量通常被应用于节点分类、节点聚类、链接预测、可视化等下游机
17、器学习任务,有利于捕获节点所在网络的结构信息。图神经网络是一种基于图结构的广义神经网络,与深度神经网络不同,通常将底层图形作为计算图,通过在整张图上传递、转换和聚合节点特征信息学习神经网络基元,生成单节点嵌入向量。2基于不同视角的数字金融欺诈检测技术在计算机自动检测领域,欺诈检测的目标是预测一个实体是否会在将来参与欺诈活动,检测对象包括个人、团伙和不良中介。从个人欺诈检测的角度出发,数字金融欺诈检测可以表述为分类问题。个人欺诈检测的形式化定义:给定每个时间戳内所有账户的集合p=p1,p2,pi和一个类别标签集合L=l1,l2,其中,pi表示账户,l1,l2分别表示欺诈和非欺诈类别标签,数字金融
18、欺诈检测的任务是学习分类模型 M,将账户 pi映射为类别标签 lj,即M:pi lj,该模型的输入是包含多个账户的数据集,其输出是该账户对应的欺诈或非欺诈标签。从团伙欺诈检测的角度出发,欺诈团伙的挖掘可以归结为社区发现问题。在社区结构中,相同社区内的网络节点联系较为紧密,不同社区之间的网络连接较为稀疏。大多数正常个体是独立的节点,或者与其他节点组成小规模团体,如果出现大量关系密切的节点,则将其归类为异常,需予以关注。从不良中介检测的角度出发,数字金融欺诈检测可以表述为找到不表露欺诈行为,但助推个人或团伙行骗的团体。数字金融欺诈检测过程包括实时数据采集、实时数据处理和实时欺诈发现 3个阶段,如图
19、 1所示。在实时数据采集阶段,需从多个渠道获取建模所需的多维数据,包括以指纹、声音、虹膜等特征为代表用于识别个体的生物特征,反映用户行为的地理位置特征,衡量用户偿还能力的财产情况特征,从征信机构获取的用户征信记录1,以及其他属性信息。在实时数据处理阶段,相关部门利用数据分析工具分析有关数据信息,进而构建反欺诈决策引擎。目前主流的反欺诈模型包括业务规则模型、机器学习模型和团伙挖掘模型,其中,机器学习模型又可分为传统机器学习模型和图机器学习模型。在实时欺诈发现阶段,决策引擎在识别到金融欺诈行为后,对相应主体发出预警,便于平台后续采取有效的反制措施。2.1个人欺诈检测个人欺诈检测的实质是二分类。与机
20、器学习、深度学习相关的方法无疑提升了欺诈检测系统对单笔欺诈交易的识别能力,而账户之间交互关系的引入能进一步提升模型的分类效率。相同或者不同类型的节点通过某种特定的关系相连接构成社会关系网络,社会关系网络中不同的数据相连接构成图结构G=(V,B,E),其中,V 为实体集合,B 为属性矩阵,bij为实体 vi的第 j 个属性,E 为实体间关系连边的集合。社会关系网络与基于机器学习和深度学习的传统欺诈检测技术结合的方式有 2 种:构建图特征,为分类模型提供更多有效特征;直接在图数据上应用深度学习技术,实现特征构建过程的自动化。利用网络分析方法获得的图特征为数据添加了更丰富的上下文信息。图特征包括基于
21、度、中心性、聚集性的局部网络结构特征,基于网络表示学习方法图 1数字金融欺诈检测流程Fig.1Flow chart of digital financial fraud detection43浙 江 大 学 学 报(理学版)第 51 卷提取相关节点的潜在低维表示,基于社区检测技术提取到的相关特征,如集群系数、社区网络密度、社区网络直径等。在数据集提供欺诈标签的情况下,这些图特征可作为输入特征的一部分,结合用户其他属性特征,将个人欺诈检测问题表述为有监督的机器学习问题。在未提供欺诈标签的情况下,需使用无监督机器学习方法,根据个人账户的异常分布,使用聚类31、异常值检测32等方法找到可疑账户。图神
22、经网络研究为个人欺诈检测提供了新的思路,摆脱了必须依赖专家经验构建有效特征的束缚,通过端到端的学习方式捕获节点的属性信息和结构信息。近年来,十亿级甚至万亿级的巨型图计算取得了较大进展33-34,为图学习技术的广泛应用提供了可能。2.2团伙欺诈检测随着诈骗的产业化、专业化,欺诈逐渐成为一种群体行为,且多为团伙作案。检测社交网络中的不同社区结构在团伙欺诈检测中具有重要作用,网络结构与内部属性相似的节点会形成关系密切的社区结构,社区内部成员之间联系密切,而社区与社区之间联系较少。团伙欺诈的研究热点为通过社区发现算法找到欺诈团伙、识别关键欺诈者以及探索团伙欺诈的模式及策略。2.2.1常用社区发现算法复
23、杂网络中的社区发现过程其本质是将复杂网络中的节点划分为不同大小的子图的过程。通过挖掘社区信息,一方面可以发现联系异常紧密的节点,帮助更快地发现犯罪团伙,其典型应用可参见文献 35-36,另一方面可以将获取的社区结构信息作为社区特征引入分类算法,其典型应用可参见文献 37-38。常用社区发现算法如表 1所示。2.2.1.1 标签传播算法(LPA)LPA40是一种基于图的半监督算法,通过已标记节点的标签信息预测未标记节点的标签信息。首先,利用样本间的关系建立完全图模型,节点间的权重取决于两个数据对象之间的欧几里得距离:wij=exp d=1D(xdi-xdj)22,(1)其中,xi,xj分别为节点
24、 i和 j的数据对象,xid为节点 i的第 d个特征,为高斯函数的标准方差,从节点 j到节点 i的概率转移矩阵为Tij=P(j i)=wijk=1l+u wkj。(2)LPA步骤:步骤 1 为网络中的每个节点分配唯一的标签,并将其作为单独的社区;步骤 2 遍历所有节点,选取相邻顶点中重复次数最多的标签,更新节点标签。若重复次数最多的标签不唯一,则随机选择一个标签更新节点标签;步骤 3 迭代执行步骤 2,直到所有节点标签不表 1常用社区发现算法及对比Table 1Comparative analysis of typical community detection algorithms算法标签传
25、播算法(LPA)GN算法Louvain算法SLPA优势(1)时间复杂度低,接近线性复杂度,适用于大规模网络;(2)无须定义优化函数,无须指定社区个数(1)在明确划分社团数时,可较精确地给出社团划分结果;(2)给出不同层次的社团划分结果,揭示关于网络层次的信息(1)第一次迭代以单个节点作为社区粒度,不受模块化分辨率的限制;(2)能够发现层次性社区结构(1)能高效实现重叠社区检测;(2)算法过程易修改,可适应不同规则、不同类型的网络劣势(1)雪崩效应:社区结果不稳定,随机性强;(2)振荡效应:社区结果振荡,不收敛(1)时间复杂度高,在计算边介数时需多次计算最短路径;(2)若无法知道划分的社团数,算
26、法结果相对较差(1)挖掘社区的大小,随着图的增大而增大;(2)社区过大,不能及时收敛(1)对于节点众多的大规模网络,分配标签会消耗大量计算资源;(2)SLPA的随机选择策略导致算法具有随机性和不稳定性时间复杂度O(m)O(m2n)O(n log n)O(Tm)适用范围非重叠社区非重叠社区非重叠社区重叠社区注 m为边数,n为节点数,T为用户定义的最大迭代次数。44刘华玲,等:面向社会关系网络的数字金融欺诈检测研究进展第 1期再更新或达到迭代次数,算法结束。2.2.1.2 GN(Girvan-Newman)算法GN 算法40是一种基于边介数的社区发现算法,基本思想是逐步删除中介中心性最大的边,直至
27、网络中所有的边都被删除。GN算法步骤:步骤 1 计算每条边的边介数;步骤 2 删除边介数最大的边;步骤 3 重新计算网络中剩余边的边介数;步骤 4 重复步骤 2 与步骤 3,直至网络中的节点都被划分为独立的社区。GN 算法输出生成的分层树如图 2所示,底部圆圈表示网络中的各个节点,当向上移动树时,节点聚集,形成更大的社区。GN算法作为最具代表性的分裂式算法之一,展示了如何去除边以获取社群结构,但该算法无法确定划分的社区数,且时间复杂度较高。NEWMAN等41提出用模块度 Q 确定最优的社群数,Q 值可反映网络划分后社区结构的好坏,Q 值接近 1,说明社区结构明显;接近 0,说明社区结构不明显。
28、2.2.1.3 Louvain算法Louvain 算法是一种基于模块度的社区划分方法43,其目的是在最终的划分结果中网络的模块度最大。模块度的定义为Q=12mi,j Aij-kikj2m(ci,cj),(3)其中,m表示网络中所有边的权重之和,Aij表示节点i和节点j连边的权重,ci表示节点i所属社区。如果节点i和节点j同属一个社区,则(ci,cj)取1,否则取0。如图 3所示,Louvain算法分 2个阶段:(1)模块度优化,先将每个节点视为一个独立的社区,再将遍历节点 i 分配给模块度增加最大的邻居节点,形成新的社区;(2)社区合并,将相同社区的所有节点压缩成一个新的节点,建立新的社区网络
29、。重复迭代这 2个阶段,直至模块度不再提升,或提升幅度小于某阈值,算法结束。2.2.1.4 SLPA重叠是社交网络的特征之一,即个体可能属于多个社交群体。SLPA43是LPA的拓展,旨在识别具有不同多样性的单个重叠节点和整个重叠社区。LPA社区用于非重叠社区,每个节点只持有一个标签,采用邻域中的多个标签进行迭代更新。SLPA 允许单个节点拥有多个标签,基于标签传播节点(Speaker)-标签接受节点(Listener)的信息传播过程模仿人类的交流行为。在SLPA中,每个节点都可以是标签传播节点或者接受节点,单个节点会积累重复观察到的标签知识,而不是删除其中一个之外的所有标签。此外,一个节点观察
30、一个标签的次数越多,越有可能将图 2GN算法输出生成的分层树Fig.2Hierarchical tree generated by GN algorithm output图 3Louvain算法步骤可视化Fig.3Visualization of Louvain algorithm steps45浙 江 大 学 学 报(理学版)第 51 卷其传播至其他节点(模仿人们传播讨论次数最多的观点的偏好)。SLPA由 3个阶段组成,(1)将每个节点看作一个单独的社区进行初始化;(2)标签传播节点发送自身标签中最多的标签,标签接受节点,接受所有发送来的标签中最多的标签,重复该步骤,直到满足停止准则;(3)
31、统计每个节点各类标签的数量,并基于节点记忆将数量超过要求的标签作为节点最终的社团标签。与其他标签传播算法不同的是,SLPA 中的每个节点均有记忆,会结合观察到的信息做出决策,从而将异步更新的准确性与同步更新的稳定性相结合。2.2.2识别关键欺诈者当检测到异常社区时,可以通过识别重要中心节点的方式迅速定位社区中的重要人物。团伙中的核心成员具有相对重要且稳定的控制作用,与团伙中的其他成员联系密切。识别关键欺诈者的主流方法是找到中心度高或集聚性强的节点。凡友荣等44使用中介中心性、网页排名(根据网页的重要性进行排序,PageRank)等指标获取各个节点的重要程度,进而挖掘关键欺诈者。另外,基于深度随
32、机游走技术的关键欺诈者识别方法,是利用随机游走探索局部信息,结合深度学习算法学习代表性特征向量,将其转化为不平衡类样本的分类问题。CHANG 等45将深度随机游走与社会网络分析方法的优点相结合,使用节点中心性作为连边的权重,运用偏向随机游走得到节点的全局重要性排序,进而更准确地识别关键欺诈者。2.2.3常见的欺诈模式及策略欺诈手段的不断提升催生了各种欺诈识别模式及策略,目前学界对欺诈模式的识别主要从分析交易关系和探索欺诈特征 2个角度出发。针对相关联且 快 速 发 展 的 欺 诈 行 为,CAO 等46提 出 了HITFRAUD 模型,利用异构信息网络进行群体欺诈检测,检测可疑交易元路径,从而
33、更快地检测欺诈行为。元路径是指在网络模式下链接对象间的路径,表示对象类型之间的复合关系。元路径刻画了对象之间的语义关系,图 4 展示了电子游戏支付场景中由不同类型的节点和连边组成的异构信息网络,元 路 径 transaction contains item item is title title is title-1 item contains item-1 transaction 表示该交易包含具有相同游戏名称的项目,transaction tranIPIP tranIP-1 transaction表示该交易来自相同的 IP 地址。语义信息的挖掘有利于识别两笔交易之间的关系,发现典型的欺诈模
34、式。CHANG 等45采用高斯混合模型对电信欺诈过程中的通话数据进行聚类,通过分析簇特征,推断通话双方的社会关系,结果发现,诈骗团伙与周围节点的关系不同于朋友、同事、情侣,虽然双方保持联系的时间、通话次数以及通话时长没有规律,但通话行为常发生在凌晨。找到用户的典型特征,更易判断可疑的社会关系,进而识别交易用户。对于欺诈策略的识别,YANG 等47借助 2016年9月上海市电信用户的通话数据集,对用户的个人信息和移动网络中的活动特征进行了基础分析,重点关注年龄、出度、入度、与欺诈者及普通用户的通话时长等特征,发现欺诈者更倾向于联系缺乏社会经验的年轻人,此外,拨打更多电话的用户易受欺诈者的青睐。随
35、后他们建立了自动识别欺诈者和欺诈策略的模型,用概率因子图表示框架,对移动网络和用户身份的联合概率建模。定义了属性因子、宏观交互因子、微观交互因子和群体因子 4类因子函数。属性因子f(xi,yi)表征特征 xi与标签 yi之间的相关性。宏观交互因子l(wi,yi)表征特征向量 wi与标签 yi之间的相关性,特征向量 wi表示针对用户 vi的策略,例如用户vi的年龄分布。为在微观层面捕获欺诈策略,对 于 特 定 的 用 户 vi和 vj,定 义 了 微 观 交 互 因 子h(si,sj,yi,yj),其中 si表示用户 vi的相关特征。对于拥有超过 公共联系人的 2个用户,定义子群体因子g(yi,
36、yj),以表示用户vi和vj之间身份的相关性。2.3不良中介检测不良中介是欺诈行为的始作俑者,这类群体不存在贷款违约行为,但煽动用户提供虚假信息、伪造申请文件、消除不可信记录等,进而从中牟取收益。不 良 中 介 应 该 为 贷 款 违 约 承 担 一 定 的 责 任。YANG 等47首次从社交网络的角度验证了不良中介的存在,并基于 1 100 万名用户的大规模数据集,揭示了不良中介不同于逾期用户和普通用户的社交网络特点,主要表现在其所联系的人群更具多样性,年龄分布更广,不同相邻节点之间的电话呼叫数的熵更大。此外,与更多不良中介联系的用户其拖欠贷款的可能性更高,同时与大量违约用户接触的是不良中介
37、的概率更大。随后,研究者基于半监督学习框架,提出了双任务因子图概率模型,将不良中介与违约借款人这 2个高度相关的预测目标相结合,并引入传导因子E量化其相互作用,从而有助于通过用户与违约用户的关系识别不良中介,也能通过与不良中介的关联46刘华玲,等:面向社会关系网络的数字金融欺诈检测研究进展第 1期情况更好地进行预测。此外引入了因子F,用于对违约借款人特征 X与违约借款人身份 Y之间的相关性进行建模,引入了因子A,用于对不良中介特征X与不良中介身份 Z 之间的相关性进行建模。该框架的优势在于当其中一个预测的目标标签数据缺失时,预测违约借款人身份/不良中介身份的任务可以通过另一个相关任务进行增强。
38、有关不良中介的更多检测方法,有待进一步研究。综上,个人欺诈检测方法和团伙欺诈检测方法已日趋成熟,而不良中介检测的相关研究较少。个人欺诈检测效率的进一步提高在于利用半监督、无监督学习技术构建图特征,实现对新型欺诈模式的预警;此外,可以利用图神经网络技术实现特征构建过程的自动化,提升模型的效率及泛化性能。在进行团伙欺诈挖掘时,需结合重叠社区、不平衡数据样本的实际场景,构建社区发现算法,同时还需考虑其在不同类型网络中的泛化性;识别团伙中关键欺诈者的研究从考虑节点局部重要性转向以深度随机游走为代表的考虑节点全局重要性;对于欺诈模式和策略的挖掘,基于不同类型的实体构建异构信息网络,更符合实际情况,进而分
39、析挖掘特殊的交易关系及特征。YANG 等48提出了不良中介的概念,阐述了不良中介的检测方法。有关不良中介的研究仍待突破。3基于不同方法的数字金融欺诈检测技术随着欺诈检测技术关注度的提高,人们结合不同技术提出了不同类型的欺诈识别方法和模型。目前面向社会关系网络的数字金融欺诈检测技术,主要有基于网络结构的方法、基于标签传播的方法、基 于 谱 分 析 的 方 法 和 基 于 图 神 经 网 络 的 方法 4 种。3.1基于网络结构的方法从网络中提取的图可以轻松捕获节点之间的关系,但是无法将图直接提供给机器学习模型,需先从网络中提取特征。提取的特征可大致分为节点属性特征、局部结构特征和网络嵌入特征 3
40、 类,其中节点属性特征与欺诈者自身的属性和行为模式有关,因此重点探讨局部结构特征和网络嵌入图 4电子游戏支付交易数据的网络模式Fig.4Network model diagram of electronic game payment transaction data47浙 江 大 学 学 报(理学版)第 51 卷特征。3.1.1局部结构特征节点的局部结构特征包括节点的度、中心性和集中度等指标,度反映用户在社交网络中的参与度,中心性反映一个节点与其他节点的联系程度,集中度反映群体之间联系的紧密程度。在欺诈识别过程中,常将局部结构特征作为基础网络特征,常见的局部结构特征如表 2所示。点度中心性与特
41、征向量中心性均通过社会关系衡量中心性,二者的区别在于点度中心性关注个人的社会关系,而特征向量中心性关注与节点直接相连的其他节点的社会关系,节点所拥有的社会关系越多,表明节点越重要。RageRank中心性的思想与特征向量中心性的一致,都考虑了节点邻居的重要性。介数中心性认为,如果一个节点位于其他节点的多条最短路径上,则该节点为核心节点。紧密中心性用距离衡量重要性,与其他所有节点距离更接近的节点是重要节点。此外,也有学者认为,个体在网 络 中 所 处 的 位 置 比 个 体 间 的 关 系 更 重 要,如BURT49提出了“结构洞”的概念,用于描述社交网络中的某些个体与某些个体有直接接触,但与其他
42、个体没有直接接触,即存在关系间断,在整体上看似网络结构出现了洞穴。如果存在结构洞,则将连接2个不直接相连节点的第三方拥有信息优势和控制优势。此外,在实际数据探索或建模过程中,专家还会结合实际业务场景构建衍生特征,挖掘更多有用的局部网络信息。3.1.2网络嵌入特征网络嵌入特征旨在学习网络中节点的低维潜在表示,这些低维表示向量可作为与图相关任务的各种特征,例如分类、聚类、链接预测和可视化。网络嵌入将每个节点表示为不同固定长度的向量,用以捕获相关节点上下文的信息。人们针对不同的应用场景提出了不同的网络嵌入算法和模型。一类是基于矩阵分解的算法,LIU 等50使用基于相似矩阵分解的网络嵌入算法,将账户-
43、IP 二分图中的每个账户转换为低维表示向量,并用 DBSCAN 算法对表示向量进行聚类分析,以寻找欺诈账户,但由于二次时间和空间的复杂性,该类方法不适合大规模数据集。另一类是基于随机游走的算法,该算法使用不同的随机游走策略获取图的局部结构和全局结构,生成节点序列,再采用 Skip-Gram 算法完成图中节点 的 降 维 嵌 入。CHANG 等45将 深 度 随 机 游 走DeepWalk与社会网络分析相结合,提出一种中心指导深度随机游走方法,将节点的中心性作为边缘权重,进行偏向性随机游走,进而考虑节点的全局重要性。LIU 等51提出的 SANE 方法,在考虑网络拓扑结构的同时,将节点属性纳入模
44、型,且可应用于大规模数据集,在反洗钱可疑账户的检测中表现优良。BELLE 等52基于高度不平衡的信用卡交易数据集,评估了 GraphSAGE 等先进的图表示学习算法,展示了使用归纳图表示学习技术得到的高欺诈检测预测性能。综上,基于网络结构的局部网络特征提取方法,已在欺诈检测的过程中得到广泛应用,网络嵌入技术作为一项新兴的图机器学习方法,在解决图数据表 2局部结构特征Table 2Commonly used local structure characteristics类别度中心性集中度名称出度入度二阶邻居点度中心性介数中心性紧密中心性特征向量中心性PageRank中心性结构洞集聚系数定义从节点
45、 i指向其他节点的边数从其他节点指向节点 i的边数与节点 i有相同邻居的节点数用节点的度作为重要性度量经过节点 i 的最短路径数占所有节点对的最短路径数的比例从节点 i到其他所有节点的平均最短路径距离的倒数一个节点的重要性与邻居节点数和邻居节点的重要性同时相关,将邻接矩阵所对应的特征向量 xi作为节点 vi的特征向量重要性度量值节点 i在图中的 PageRank值考虑了节点在网络中的位置反映一个节点与邻居节点之间的互联程度,为节点 i的相邻节点实际构成的连边数与可能存在的最大连边数的比值48刘华玲,等:面向社会关系网络的数字金融欺诈检测研究进展第 1期稀疏问题、图相关应用计算效率低和图信息融合
46、度低等问题上表现优异,必将成为数字金融欺诈检测技术的重要方向之一。但是针对日益复杂的社会关系网络以及不断涌现的图模型,网络嵌入方法与应用仍需进一步扩展和完善。3.2基于标签传播的方法LPA 通过已标记节点的标签信息预测未标记节点的标签信息,每个节点标签根据相似度向相邻节点传播。数字金融欺诈的网络特征符合标签传播的特征,有助于确定周围节点的标签信息,辅助欺诈检测。标签传播在欺诈检测领域应用广泛53。一种是利用 LPA完成社区检测任务,PENG等54将 LPA用于复杂网络生成欺诈社区,但 LPA 具有很强的随机性,HOSSEINI 等55提出了一种结合相似性指数和蚁群优化算法的改进的标签传播(An
47、tLP)算法,在标签转移过程中考虑节点之间的相似性,且利用蚁群算法提高遍历效率,将搜寻过程引导至具有高模块度的社区。WANG 等56通过改进组分区基于知识图谱的LPA,获得了更高的可靠性和稳定性。另一种是利用 LPA 从相关网络中提取网络特征,ZHAO 等57基于已知欺诈用户的关联网络及相关性,采用个性化 LPA 推断未知用户的欺诈概率,并将欺诈概率作为基于网络的衍生特征应用于增加特征工程的信息熵。在此过程中,改进了概率转移矩阵中的权重设置和标签分布矩阵向量初始化的方法,解决了欺诈数据集中因正负样本不平衡导致算法性能退化的问题。综上,LPA 可以通过社区检测的方式锁定可疑社区,也可以作为一组表
48、示节点欺诈概率的特征,用于下游分类器的分类任务。然而标签传播组件运行时间长,在业务系统的自动检测管道中所占比重大,如何在提高标签传播组件运行效率的前提下保持算法的可靠性和稳定性,是当今面临的一项紧迫挑战。YE 等58提出了一种基于 GPU 的框架(GLP),用以支持大规模的标签传播,该框架提供一组用户定义的 API,以兼容不同标签传播变体的开发,利用社区以及大图的幂律特性,以 GPU 为中心进行优化,具有加速标签传播组件、改善延迟的效果。关于提高标签传播组件运行效率的研究有待进一步探索。3.3基于谱分析的方法图谱分析是应用图相关矩阵的特征值和特征向量解决图相关问题的方法,在使用这类方法进行欺诈
49、检测时,通常抽取具有相关关系的用户群组或对象群组构成图G(m,n),m为图中的节点个数,n为节点之间的关系连边数,An n为由图构成的邻接矩阵。令j 为邻接矩阵 A 的特征值,xj为邻接矩阵 A 的特征向量,邻接矩阵 A的谱可以分解为A=jjxjxTj。谱空间由图投影至其邻接矩阵的主要特征向量构成,能捕获图的主要拓扑信息。谱空间的谱坐标最能捕获网络中有用的拓扑信息,基于此,YUAN等59将图的邻接矩阵的低维谱空间的谱坐标作为输入训练深度神经网络。此外,YING等60利用由网络拓扑结构构成的频谱空间识别欺诈或攻击,依据不同类型的用户在谱空间所处的不同区域识别具有欺诈行为的攻击者。TROJA等61
50、提出了一种基于动态频谱访问和人群感知范式的新型隐私保护方案,该方案采用基于同态加密结构的欺诈预防机制,有效减轻了欺诈感知报告攻击。综上,单独使用谱分析可以检测某些难以从原始拓扑结构中识别的欺诈者或欺诈模式。该方法与深度学习相结合,将节点光谱坐标作为深度神经网络的输入,能降低输入矩阵的维数,适用于标记用户有限的情况。与机器学习相比,省去了特征工程的步骤,不必依赖于欺诈领域专家。其突破点在于探索矩阵的可视化和组织方法,从而实现网络拓扑及其与谱空间之间的交互式导航。3.4基于图神经网络的方法近年来,人们对深度学习方法的图扩展兴趣不断增强,基于卷积网络、循环网络和深度自动编码器的思想,定义和设计了用于
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100