收藏 分销(赏)

数字信用交易反欺诈研究进展.pdf

上传人:自信****多点 文档编号:551046 上传时间:2023-12-06 格式:PDF 页数:25 大小:4.24MB
下载 相关 举报
数字信用交易反欺诈研究进展.pdf_第1页
第1页 / 共25页
数字信用交易反欺诈研究进展.pdf_第2页
第2页 / 共25页
数字信用交易反欺诈研究进展.pdf_第3页
第3页 / 共25页
亲,该文档总共25页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、计算机科学与探索Journal of Frontiers of Computer Science and Technology1673-9418/2023/17(10)-2300-25doi:10.3778/j.issn.1673-9418.2211087数字信用交易反欺诈研究进展刘华玲+,曹世杰,许珺怡,陈尚辉上海对外经贸大学 统计与信息学院,上海 201620+通信作者 E-mail:摘要:数字技术的发展加速了金融在线支付方式的转变,带来支付便捷的同时却也增加了欺诈交易的隐患,反欺诈研究对保护用户财产、防范金融危机尤为重要。伴随数据治理与共享技术的进步,数字支付交易数据呈现海量、多源、异构

2、的新特点,将基于大数据与人工智能的数据智能技术融入到反欺诈研究中具有重要的理论研究意义。信用卡支付与数字支付充分结合发展形成的数字信用支付模式,拥有当下最成熟的数据积累和理论基础,为反欺诈模型的研究提供了最理想的数据资源与理论支持。从概念出发,首先结合我国实际业务场景,对数字信用反欺诈研究问题的定义、研究难点、数据框架进行介绍;其次基于建模策略,分别从数据均衡和模型优化两方面对数字信用交易反欺诈研究的前沿进展进行综述,重点介绍了各类机器学习算法与深度学习算法在反欺诈研究中的理论基础、适用场景、最新成果,并基于上述内容展开综合评估;最后结合研究现状,从需求的角度切入,对包含反欺诈研究的泛化性、可

3、解释性、面对新型欺诈交易模式敏感性在内的三大研究热点进行总结,并对未来的研究方向进行展望。关键词:数字信用支付;欺诈交易识别;数据智能;不均衡分类文献标志码:A中图分类号:TP18Anti-fraud Research Advances on Digital Credit PaymentLIU Hualing+,CAO Shijie,XU Junyi,CHEN ShanghuiCollege of Statistics and Information,Shanghai University of International Business and Economics,Shanghai2016

4、20,ChinaAbstract:The development of digital technology has accelerated the transformation of financial online paymentmethods,bringing convenience to payment but also increasing the hidden dangers of fraudulent transactions.Anti-fraud research is particularly essential to protect usersproperty and pr

5、event financial crises.With the advancementof data governance and sharing technology,digital payment transaction data present new characteristics of massive,multi-source and heterogeneous.Integrating data intelligence technology based on big data and artificial intelligence intoanti-fraud research h

6、as important theoretical research significance.The digital credit payment model formed by thefull combination of credit card payment and digital payment has the most mature data accumulation and theoreticalbasis at present,providing the most ideal data resources and theoretical support for the resea

7、rch of anti-fraudmodels.Starting from the concept,this paper firstly introduces the definition,research difficulties,and dataframework of the digital credit anti-fraud research problem in combination with the actual business scenarios inChina.Secondly,based on the modeling strategy,the frontier prog

8、ress of digital credit transaction anti-fraudresearch is reviewed from two aspects of data balance and model optimization.This paper focuses on the theoreticalbasis,applicable scenarios,and latest achievements of various machine learning algorithms and deep learningalgorithms in anti-fraud research,

9、and based on the above content,a comprehensive evaluation is made.Finally,收稿日期:2022-11-21修回日期:2023-05-16刘华玲 等:数字信用交易反欺诈研究进展互联网信息时代,数字经济成为引领全球经济社会变革、推动我国经济高质量发展的重要引擎,以大数据、人工智能为代表的新一代信息技术在经济社会的不断扩张与渗透,催生出数字金融新业态1,其中数字信用交易作为伴随消费模式升级与普惠金融的发展而成的新模式,迅速在全国捕获了大量用户,成为数字金融体系的重要组成部分,为我国数字经济的高质量发展铺平了道路。但另一方面,以恶

10、意逾期、冒用他人信用账户为代表的数字信用交易欺诈行为同样变得更为隐蔽,2020年全球范围内数字信用支付欺诈交易损失较2018年增加了35%2,目前仍呈上升态势。我国的情况同样不容乐观,信用支付逾期半年未偿信贷总额在2019年略有下降后再次回升3。数字信用欺诈交易的存在不仅为用户、银行业在内的个体及金融机构带来大量财物上的损失,更会让消费者丧失对数字支付的信心,严重阻碍我国数字经济的发展。欺诈交易造成的严重损失与用户对交易安全的硬性需求,使数字化交易安全问题受到社会各界的广泛关注。面对数字交易信息逐步呈现出的海量多源、高维异构等新特点,传统的专家系统与早期的机器学习分类算法难以适应现有数据环境,

11、金融科技革命开始蓬勃发展,蚂蚁金服、Paypal等互联网科技企业更是引领起反欺诈研究创新的变革新浪潮。以海量数据为驱动力,融合统计学、数学、机器学习和人工智能算法的数据智能技术成为反欺诈研究中的重要工具。相关算法已在数字信用反欺诈研究领域得到广泛关注与应用,随之涌现出多篇基于不同视角聚焦数字信用交易反欺诈研究的综述性文章。Bansal和 Garg两位学者2从风险来源出发进行综述,详细论述了当前国外数字信用欺诈交易的主要类型及犯罪手段,其文章能够使读者快速了解信用支付反欺诈研究的研究背景,但由于具体业务的开展方式在各国间不尽相同,文章介绍的欺诈交易方式与我国的情况可能有所差异。文献4-7从算法的

12、识别性能出发进行综述。Popat等学者在文献4中分析并对比了 8类机器学习分类算法在数字信用欺诈检测中的应用。文献5重点分析了当前研究领域受关注最多的 6 类有监督模型与 4 类无监督模型的性能优劣,但上述文章模型对比均停留在Baseline阶段,缺乏最新的研究进展。文献6将目光聚焦于机器学习在反欺诈研究中的应用,但涉及文献较少,涵盖观点不够全面。Ryman、Krause等学者7在真实体量的交易数据集上对最新的欺诈交易识别模型进行实证检验,文章认为与当时的基准测试(2017年)相比,仅有 8种方法可以应用到实际业务场景中,遗憾的是由于数据集的私密性,无法将其分享出来用作后续研究的对比。文献8整

13、合并罗列了领域中常用的公开数据集与获取地址,方便读者进行查找与实验,弥补了文献7的不足。Al-Hashedi等学者9聚焦于包含信用交易反欺诈研究在内的金融反欺诈领 域,汇总了自 2009 年至 2019 年由 ACM、IEEE、Emerald、Elsevier出版社出版的相关文章,从模型描述、数据集汇总、算法的横向对比等多角度进行了文献综述,是目前已发表的文章中涉猎时间最广、角度最为全面的综述性文章之一。综上所述,目前面向信用支付反欺诈研究的综述性文章大多数涵盖内容不够全面,文献 9虽然涉及内容广泛,但是文章着眼于整体金融欺诈检测领域,就数字信用交易反欺诈研究而言,深度略显不足,目前仍旧缺少对

14、数字信用交易反欺诈研究进行全面、深入梳理与总结的工作。作为最早的数字化非现金交易方式之一,数字信用支付拥有目前最成熟的数据积累和理论基础,其反欺诈算法的研究进展不仅关乎自身业务发展,对整体数字支付环境下的交易风险防范具有更为重要的启示意义。本文在上述文章的基础上进一步对国内外的研究成果进行综述,意图为读者呈现系统、全面的分析与总结。1数字信用反欺诈研究简要概述1.1数字信用欺诈交易定义及分类数字信用欺诈交易是指以非法占有为目的,违反信用支付管理法规进行的诈骗行为10。根据欺诈者的身份可分为内部信用欺诈交易(internal creditfraud payment)和外部信用欺诈交易(exter

15、nal creditfraud payment)两种模式11。内部信用欺诈交易的欺combined with the research status and from the perspective of demand,this paper summarizes the three majorhotspots including the generalization and interpretability of anti-fraud research,and the sensitivity to new fraudulenttransaction models,and concludes w

16、ith an outlook on future research directions.Key words:digital credit payment;fraudulent transaction identification;data intelligence;imbalance classification2301Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(10)诈者为用户本人,通过伪造身份信息、恶意逾期等行为违法获利;外部信用欺诈交易的欺诈者为非银行、用户本人在内的第三方恶意用户,通过获

17、取信用卡/账户的详细信息及相应个人凭证伪装成持卡者进行违法套利活动。从实施欺诈交易的方式入手,数字信用欺诈交易主要可分为信用卡丢失/被盗、快捷支付漏洞、使用伪造信用卡、钓鱼网站攻击、电子账户泄露、恶意逾期等类别,如图1所示。(1)信用卡丢失/被盗(lost/stolen card):持卡者的信用卡开通免密支付的同时出现丢失或被盗的情况,被不法分子获取后用于非法套利或消费从而产生损失。(2)快捷支付漏洞(card not present):不法分子获取到持卡者的银行卡卡号、户名、手机号码等信息,并使用伪造的电话卡获取第三方支付平台发送到用户手机的动态口令,从而完成支付。(3)使用伪造的信用卡(f

18、ake credit card):以制作假信用卡或对真实信用卡的信息进行涂改、伪造为代表的违法行为。(4)钓鱼网站攻击(Phishing):向用户发送虚假购物网站,从而获取用户在该网站上填写的信用账户相关信息,例如客户的账号、登录凭据、信用支付密码等,通过这些信息,不法分子即可完成欺诈交易。(5)电子账户泄露(account takeover):与钓鱼网站攻击造成损失的原因相似,消费者信用账户的账号及支付密码出现泄露,被不法分子获取,从而造成损失。(6)恶意逾期(maliciously overdue):持卡者使用信用支付消费后在还款日故意逾期,不偿还贷款的行为。1.2欺诈交易识别问题描述及研

19、究难点数字信用欺诈交易识别问题的定义如下:给定一段时间内的历史交易数据集D=d1,d2,dn及每条交易数据di对应的类别标签lil1,l2,其中di代表一条数字信用交易记录的具体信息,l1、l2分别代表正常交易与欺诈交易。数字信用交易反欺诈研究旨在通过数据挖掘算法提取数据集中欺诈行为模式,进而识别新发生交易中的潜在欺诈交易,输出结果为新发生的交易申请属于正常交易或欺诈交易的概率。因此欺诈交易识别任务本质是一个二分类问题。结合数字经济下具体的应用场景及业务特点,数字信用欺诈交易识别问题当下主要有四个研究难点。(1)数字支付背景下交易规模激增,传统审核方式难以支撑。根据央行发布的数据显示,2020

20、 年银行共处理电子支付业务 2 352.23 亿笔,其中网上支付业务879.31 亿笔,移动支付业务 1 232.20 亿笔,分别同比增长12.46%和21.48%。单日新增数字信用支付记录存储量从 2012年的 TB级向如今的 PB级跃迁,在如此庞大的交易数量下,人工审核或基于规则的算法在检验精度与效率上难以取得令人满意的结果。(2)公开数据集少,信息敏感度高。回顾近年来的发展,数据挖掘技术愈加成熟,但是由于交易数据的私密性,银行禁止在未经同意下对客户的消费信息进行任何披露,数字信用反欺诈研究进展缓慢12。(3)数据集样本分布严重失衡,模型分类结果有偏。基于信用消费记录构成的数据集中,正常用

21、户的交易数据样本数量远多于需要着重关注的欺诈交易样本数。现实业务中,正常用户与欺诈用户的比例甚至能达到1 000 1以上13。数据集类别分布的严重失衡将导致模型对正常交易识别过度,对欺诈交易的样本行为特征识别不足,严重影响模型的检测效果14-15。在反欺诈研究中,欺诈交易的错分代价远远高于正常样本的错分代价,欺诈交易才是要重点关注的对象。(4)部分交易特征高度相似,分类难度大幅提升。数据集类别分布失衡并非信用支付欺诈识别任务中的主要难题,事实上,只要各类分布可以被该类样本数据完全表达,且不同类别样本之间不存在重叠,以图2中的二维空间为例,如图2(a)所示,即使数据集构成比例严重失衡,传统的分类

22、方法依旧可以取得较好的识别效果。但在信用支付欺诈识别问题图1数字信用欺诈交易的主要方式Fig.1Main methods of digital credit fraud transactions2302刘华玲 等:数字信用交易反欺诈研究进展中,部分欺诈交易样本表现出来的特征与正常交易的特征具有高度的相似性,将样本映射在特征空间中如图 2(b)所示。如何优化重叠区域的分类问题,是领域内研究者解决信用支付欺诈识别问题的主要矛盾,对重叠区域进行量化表达并融入模型也是目前数字信用反欺诈研究领域的最新方向。1.3数据描述及特征工程1.3.1数据描述表1罗列了实际业务场景中,新的交易申请发起时会被发卡机构

23、或三方支付机构记录的基本属性,以展示信用支付欺诈交易识别特征表的主要框架。尽管交易特征表的具体结构在不同的发卡机构之间可能略有不同,但表1中涉及的特征在各机构的数据库中应当均有收录且被应用于欺诈交易识别模型的构建中。1.3.2特征工程在欺诈识别模型搭建中,基于原始数据对交易行为信息进行总结和表示,构建有效特征变量的特征工程是流程内极为关键的一步,特征的质量将直接影响模型的性能,具体来讲,特征越好,灵活性越强,构建的模型也将越简单、性能越出色。对于信用支付欺诈交易识别问题,数据库由不同用户在相同时间跨度内的历史交易记录构成,但直接使用这些由表 1中初始特征组成的历史信息建图2样本在特征空间中的映

24、射表示Fig.2Mapping representation of samples in feature space表1信用支付欺诈交易识别特征Table 1Features of credit payment fraud transactions特征类型用户画像交易细节账户信息用户属性子类特征名称账户ID卡片/账户类型信用额度可用余额用户基本信息金融资产结构历史风险属性交易日期交易时间交易额度交易类型交易地点交易来源商户号商户类型交易间隔特征描述申请发生交易的信用账户的账户编号信用卡/账户的类型及等级在账单周期内用户可透支消费的最大限额截至交易申请为止的剩余金额主要包含信用支付申请人的静态属

25、性,如:用户的性别、年龄、教育水平、婚姻状态等用户在银行相关资产水平,如:用户持有的基金、理财、贵金属等非现金资产类业务可直接或间接反映用户信用相关的历史记录,如:央行征信、历史违约记录、个人负债情况等交易申请发生时的日期交易申请发生时的时间当前交易申请的消费钱数当前交易申请的所属交易类型,如:提现、餐饮消费等交易申请提出的地址信息交易申请发出的方式,如:POS机、ATM机、线上支付可用于识别商家的编号代表商户类型的编码据上一次交易完成的时间间隔2303Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(

26、10)模是困难的。如果将单笔交易记录作为建模对象,则忽略了不同用户之间的异质性与同一用户不同交易之间的连续性,造成关联账户历史交易信息的丢失;如果将信用账户作为建模对象,使用每个账户的历史交易记录进行独立建模,虽然解决了上述问题,但仅能用于重点客户分析,在数字经济海量用户的背景下无法大规模实施。因此,除去对现有特征进行筛选与提炼,利用特征工程对用户的历史交易模式进行归纳与总结,作为新的特征补充到交易记录中完善用户画像是保证欺诈识别模型有效性的重要基础。在现有的研究中,大多数学者结合 RFM 框架进行特征工程,其中R(recency)代表客户当前交易距上一次发生交易之间的时间间隔、F(feque

27、ncy)代表客户的交易频率,M(monetary)代表客户的消费金额,配合不同跨度的时间窗口即可捕获用户长、短期交易行为特征。Zhang等学者在研究中认为 RFM框架虽然考虑了不同用户之间的差异,但是忽略了信用支付交易自身的内在异质性,即使是同一用户面对不同的交易类型也具有不同的行为模式,因此在 RFM框架的基础上提出了面向同质性行为分析(homogeneity-oriented behavior analysis,HOBA)的特征工程框架16,配合交易聚合策略从交易类型、聚合周期、交易行为、聚合统计指标四方面完成了更精细的关联账户历史行为特征提取,使用不同的分类器在中国最大的商业银行提供的数

28、据集上进行检验,结果显示经过HOBA框架处理后的数据所构建的模型识别精度有显著的提高。简单有效是 RFM 框架的优势,但数据集在结构化存储方式下,不同用户间的交易样本被默认是相互独立的,用户之间诸如社会关系、交易位置在内的空间联系被完全忽略,无法将此类非结构关系信息提取到行为特征中。直到近年来,以 Node2Vec17、SDNE(structural deep network embedding)18为代表的图嵌入算法的兴起,将交易信息从结构化数据转化为图结构数据,并基于图网络从全局视角挖掘账户之间的空间联系,生成新补充特征应用于风险决策模型成为可能。Vlasselaer等学者基于 RFM 特

29、征框架进行改进,提出了 APATE(anomaly preventionusing advanced transaction exploration)19特征工程方法,一方面使用 RFM框架提取客户消费历史的内在特征,另一方面依据客户与商家的联系构建了消费者-商家信息网络,基于网络为客户建立时间依赖的信用评分,面对新传入的交易申请,网络特征的加入使APATE框架在相同的分类模型上呈现出更好的分类效果。RFM 框架和基于 RFM 框架进行改进的特征工程方法很好地完成了分析用户行为模式、完善用户画像的需求,但是略有不足的是上述方法需要研究者对业务具备深入理解,以手工构造的方式进行开展。随着数字经济

30、的发展,不同机构业务场景下的收录特征与欺诈交易模式不尽相同,基于专家的手动特征构建方法难以满足与日俱增的欺诈识别需求。由此,王成等学者提出面向网络支付的自动化特征工程方法20,通过定制化转换函数设计在特征集合上自动生成潜在补充特征,依托决策树模型对当前特征重要性进行排序并对数据集进行划分,若当前最佳划分属性为生成特征,则将其保留并更新对应转换函数的权重,随后在子节点中重复上述过程,直至达到结束条件。与随机构造、Cognito等多种自动化特征工程框架进行对比,效率更快、精度更高。此类自动化特征工程方法也逐渐成为反欺诈研究前期特征挖掘阶段的有利工具。图结构特征构建也同样趋于自动化,文献19率先将图

31、表征学习算法Graphsage21引入信用支付欺诈研究领域,无需繁琐的手动特征工程即可对消费者-商家交易网络进行特征化处理,从交易网络与结构的视角提取用户行为模式,相较于传统的图特征提取方法,提高了信用支付欺诈识别的效率和准确性,有力展示了图归纳表示学习在信用支付欺诈交易识别问题上自动提取特征的有效性。1.4信用支付欺诈交易识别模型主要建模策略通过1.2节的分析,信用支付欺诈交易识别本质上是一个面对极度不均衡数据集的二分类问题,现有研究中,对于不平衡数据集的建模思路主要分为两类:(1)从数据层面出发,主要思想在于通过重抽样或者生成伪数据的方法对数据集进行平衡,随后运用传统的分类方法进行研究。(

32、2)从模型层面出发,从模型的理论切入,通过改进分类算法的损失函数或学习策略,提高对少数类样本特征的学习能力。其中代表性的算法为代价敏感分类算法,对少数类样本施加一个较高的错分代价因子以达到提高分类效果的目的22-24。在数字信用反欺诈研究业务中,严峻的类别不平衡性与特征空间内重叠区域样本的存在,使得从单一层面进行改进的识别算法难2304刘华玲 等:数字信用交易反欺诈研究进展以取得令人满意的效果,因此相关研究者通常将两个改进方向进行融合,虽然模型的复杂度有所提升,但也结合了两者的优点,模型的性能更加稳定。1.5评价准则为了准确评估欺诈识别模型的性能,评价指标的选取至关重要。面对正负类样本分布极度

33、失衡的数据集,以分类准确率(Accuracy)为代表的经典评价指标会侧重评估多数类样本(正常交易)的检测结果。但反欺诈研究中,对少数类样本(欺诈交易)的识别性能才是重点关注的对象,误判欺诈交易所带来的损失要远高于正常交易的错分代价,因此整体的分类准确率并不能迎合真实应用中的业务需求。在目前研究中,通常在精确率(Precision)、召回率(Recall)、F1分数(F1-score)、G-mean、马修斯相关系数(Matthews correlation coefficient,MCC)以及AUROC值或AUPRC值中选取部分作为模型评价指标。本文将数据集中的欺诈样本定义为正类,将正常样本定义

34、为负类,可得到混淆矩阵如表2所示。(1)精确率(Precision):又称为查准率,用来表示预测为正类的样本中被正确分类的比重,通常会受到数据集不平衡率的影响,不平衡率越高对其影响越大。Precision=TPTP+FP(1)(2)召 回 率(Recall/Sensitive/TPR(true positiverate):又称查全率、灵敏度、真阳性率,是模型对正类样本识别全面程度的一个度量。Recall=TPTP+FN(2)(3)F1分数(F1-score):在不平衡分类任务中,精确率和召回率通常是“此消彼长”的关系,F1分数对精确率与召回率进行了综合,是两者的调和平均值,同时考虑了正类样本检

35、测结果的准确性与全面性。在评价过程中,F1分数的值越高,认为分类器的性能越好。F1-score=2RecallPrecisionRecall+Precision(3)(4)G-mean:G-mean 同时度量了正类样本和负类样本检测结果的全面性,优点为对数据集中类别分布不敏感,评价过程中,G-mean值越高,分类器的性能越好。G-mean=TPTP+FNTNTN+FP(4)(5)马修斯相关系数(MCC):马修斯相关系数同时考虑到正类样本与负类样本的识别性能,本质上是样本真实情况与基于分类器得到预测结果之间的相关系数,马修斯相关系数的取值范围为-1,1,取值为1时,代表模型识别结果与真实情况完全

36、相同,取值为-1时代表模型识别结果与真实情况完全不符。MCC=TP TN-FP FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)(5)(6)AUROC值与AUPRC值ROC 曲线全称为“受试者工作曲线”(receiveroperating curve),横坐标为假阳性率(FPR:假正例FP在全部真实负例样本中的占比),纵坐标为真阳性率(TPR)即召回率,对每一个分类阈值,分类器都会给出对应的 FPR 与 TPR 值(对应坐标系中的一个点),所有坐标点连接而成的平滑曲线即为 ROC 曲线。AUC 值(一般特指 AUROC)则是 ROC 曲线下的面积,能够量化地反映基于 ROC曲线衡量

37、出的模型性能,AUC值越大,模型的分类性能越好。P-R 曲线全称“精确率-召回率曲线”(precision-recall curve),横坐标为召回率,纵坐标为精确率,同F1-score一样是对上述两个指标的综合度量,P-R曲线的绘制方法与 ROC曲线相似,AUPRC值则是 P-R曲线下的面积,AUPRC值越大,模型的分类性能越好。AUROC 值与 AUPRC 值计算方式相似,均通过计算曲线下面积度量模型性能,但在实际应用中存在差异。相比P-R曲线,ROC曲线的形状在正负样本的分布发生变动时能够基本保持不变,但P-R曲线会发生较强烈的变化。这个特点让 AUROC 值能够降低不同测试集带来的干扰

38、,更加客观地衡量模型的自身性能,但当研究需要测评模型在某特定数据集上的表现时,AUPRC值更加直观。2数字信用反欺诈研究中的数据均衡算法数据均衡算法的目的在于通过对数据集进行调整,抵消样本分布占比不均衡带来的负面影响,使处理后的数据集能够满足传统分类算法的需求,而在数字信用反欺诈研究中,海量的正常交易样本已经表2二分类问题的混淆矩阵Table 2Confusion matrix of binaryclassification problem真实类别+-预测类别+真正例(TP)假正例(FP)-假负例(FN)真负例(TN)2305Journal of Frontiers of Computer S

39、cience and Technology计算机科学与探索2023,17(10)使得正常用户的行为特征得到充分表达,如何通过过采样技术对欺诈交易样本进行补充是领域内的研究重点。本章将重点对欺诈交易识别领域运用到的数据均衡算法进行总结。目前对数据集进行平衡的方法可分为从重抽样角度出发和从数据分布角度出发两个思路,如表3所示:重抽样角度下的均衡算法提出时间早,理论简单,应用广泛,但过于依赖于已有样本数据的特征表现,没有考虑到数据集的整体分布情况;基于数据分布角度的算法弥补了这一不足,其中生成对抗网络(generative adversarial network,GAN)是近年来深度学习技术在分类问

40、题上的最新成果,采用内部对抗机制对网络进行训练,拟合数据的实际分布,在学术界和工业界均受到广泛关注,是该类方法中最具代表性的前沿算法,缺点是理论较为复杂,时间复杂度有所增加。表 4对各类数据均衡算法的优点与局限性进行了细致的总结与归纳。2.1基于重抽样角度的数据均衡算法基于重抽样技术对数据集进行补充的策略中,最早被提出的算法为随机过采样与随机欠采样技术。随机过采样技术通过对少数类样本进行简单随机的重复抽取,达到平衡数据集的目的,适用于数据集不平衡度较轻的场景,在样本构成差异过大的数据集中,随机过采样方法容易产生过拟合问题。随机欠采样技术旨在通过对多数类样本进行随机的删减,缩小样本量间的差距,但

41、是随机欠采样技术很容易将一些重要的多数类样本删除。为了解决随机重采样技术的上述缺陷,学者们将重点从样本点本身转向了样本点的局部邻域。Chawla等 学 者25提 出 了 SMOTE(synthetic minority over-sampling technique)算法,将少数类中的每个样本点均作为一个种子,寻找其相同类别的K-近邻(K-nearest表3数字信用反欺诈研究中的数据均衡算法Table 3Data balance algorithms in anti-fraudresearch of digital credit章节2.12.2分类基于重抽样角度的均衡算法基于生成对抗网络的均衡

42、算法文献算法文献25-37文献38-40优点提 出 时 间 早,理 论 简 单,应用广泛从分布的角度对数据进行补充,避免重采样和局部采样产生的有偏性局限过于依赖于已有样本数据的特征表现,没有考虑到数据集的整体分布情况理论较为复杂,时间复杂度增加表4各类数据均衡算法的优点与局限性Table 4Advantages and limitations of various data balance algorithms分类重抽样角度生成对抗网络角度文献算法随机过采样随机欠采样SMOTE25ADASYN30Borderline-SMOTE29、Safe Level SMOTE31、LN-SMOTE32A

43、daN-SMOTE34BDA-SMOTE35GSMOTE-Boost36ROA37GAN39RECGAN40优点简单便捷简单便捷简单便捷,增强了均衡样本的泛化性简单便捷,将分类超平面自适应地向分类困难样本移动基于正类(欺诈)样本点局部邻域的分布情况对SMOTE算法进行改进从边界与密度同时对 SMOTE 算法进行改进,优化均衡样本的稳健性将集成学习思想融入 SMOTE 算法,减少噪声节点带来影响的同时优化分类系统的鲁棒性优化了均衡样本对负类样本造成的影响,使分类器对正类样本与负类样本的识别性能同时增强有效避免了重采样和局部采样产生的有偏性考虑了负类样本与正类样本的分布差异,算法的识别性能与鲁棒性

44、均得到提升局限性过于依赖已有样本的特征表现,容易产生过拟合问题容易将一些重要多数类节点删除均衡样本中存在噪声节点忽略样本异常点与均衡样本对邻域内负类(正常)样本的影响忽略均衡样本对邻域内负类(正常)样本的影响,导致模型容易误判部分与欺诈交易行为相似的正常交易样本模型复杂度大幅增加,会成为其应用于大规模数据集时的阻碍忽略均衡样本对邻域内负类(正常)样本的影响,导致模型容易误判部分与欺诈交易行为相似的正常交易样本需要计算数据集均衡前后的复杂度,耗时久,模型复杂度增加传统的 GAN本质上是无监督学习算法,没有考虑负类样本与正类样本的分布差异,训练出的模型对正常交易的误判率增加模型较为复杂,参数量大,

45、训练时间长2306刘华玲 等:数字信用交易反欺诈研究进展neighbor,K-NN)样本,按照一定的比例在近邻样本与种子样本之间生成新样本,对少数类样本进行补充。He等学者26进一步提出 ADASYN(adaptive syntheticsampling approach for imbalanced learning)方法,分析了每个种子样本 K-邻域中多数类样本的分布情况,结合数据不平衡率合成样本,自适应地将决策边界转移到难以学习的样本。上述算法一经提出便受到了学者们的广泛接纳,但是存在以下两方面问题:首先 SMOTE与 ADASYN算法将少数类别中的所有样本均作为种子点生成新样本,忽略了

46、样本中异常点的问题,从而导致生成的样本中存在噪声节点;其次,没有考虑到种子节点与K-近邻节点间多数类样本的特征分布情况,盲目地生成均衡样本会加重数据集在特征空间中的重叠区域的复杂度,使该部分样本更加难以区分27-28。针对上述不足,Batista等学者29提出了欠采样与过采样技术相结合的方法,从而减少均衡数据时需要补充的欺诈样本数量。Han等学者30对样本点局部邻域的分布情况进行更加深入的研究,提出Borderline-SMOTE 方法,将少数类样本分为安全样本、危险样本与噪音样本,仅使用边界上的样本作为种子生成新样本点,缓解了噪音节点的生成;随后的Safe LevelSMOTE31、LN-S

47、MOTE(local neighbourhood extensionof SMOTE)32两种技术在Borderline-SMOTE算法基础上不仅关注种子样本局部子区域的分布,而且对其近邻样本的邻域进行分析,基于邻域分布确定样本合成权重,噪声样本点的问题进一步得以遏制,但仍没有关注均衡样本对重叠区域造成的影响。直到Napierala与 Stefanowski两位学者33从数据集的结构特征出发,将少数类样本划分为安全样本、边界样本、稀有样本和异常值四种情况,通过分析各类初始样本生成的均衡样本对不平衡分类器的影响,为解决均衡样本会加重重叠区域复杂度的问题提供了思路。在最新的研究中,王芳等学者34在

48、 Borderline-SMOTE 的基础上提出了邻域自适应 SMOTE 算法(neighborhood adaptive SMOTE algorithm,AdaN-SMOTE),通过跟踪少数类样本点与其近邻样本构成的超矩形区域内的精度变化,自动为每个少数类样本点确定要合成的少数类样本数量,使过采样后的数据集可以更逼近原始少数类样本的分布。梅大成等学者35面对SMOTE算法及其改进算法均比较依赖原始数据集分布的问题,提出了边界与密度自适应的SMOTE 算 法(SMOTE algorithm for feature boundaryand density adaptation,BDA-SMOTE

49、),一方面对局部的少数类样本进行密度调整,通过非线性映射扩大少数类样本局部密度的差异,减少噪声样本的干扰,另一方面将根据特征边界的特性将数据分为边界与非边界样本,通过设定不同的安全区域扩展数据的原始分布,有效防止边界混淆与过拟合,但性能提升的背后是模型复杂度的大幅增加,可能会成为其应用于大规模数据时的严重阻碍。张忠良等学者36将SMOTE算法与Boosting集成学习算法结合起来构建了一种基于高斯过采样的集成学习算法(GSMOTE-Boost),增加基分类器多样性的同时,提高分类系统的鲁棒性。文献35-36从种子节点的邻域出发,有意识地关注均衡样本对近邻空间内数据分布的影响,生成的均衡样本更加

50、稳健,但上述研究并不能反映数据集均衡前后全局特征空间内重叠区域的变动情况。如何将重叠度即重叠区域的样本量在数据集中的占比作为监督指标融入到欺诈识别模型中,做到均衡数据集的同时优化样本在特征空间中的分布成为学者们的最新研究方向。Omar等学者37基于K-近邻算法定义了用于表征数据集重叠度的新指标Aug-R,并将ADASYN算法与特征选择技术结合起来提出了ROA算法(reduce overlapping with ADASYN)。ADASYN算法用于对数据集进行均衡,基于弹性网算法构造损失函数对数据集进行特征选择,模型中的超参数则以最小化Aug-R进行确定。实验结果显示,运用ROA算法均衡后的数据

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服