1、用于欺诈检测的一种代价敏感决策树方法Yusuf Sahin a, Serol Bulkan b, Ekrem Duman ca Department of Electrical & Electronics Engineering, Marmara University, Kadikoy, 34722 Istanbul, Turkey b Department of Industrial Engineering, Marmara University, Kadikoy, 34722 Istanbul, Turkey c Department of Industrial Engineering,
2、Ozyegin, Cekmekoy, 34794 Istanbul, Turkey关键词:代价敏感建模 信用卡欺诈检测 决策树 分类 可变误分类代价摘要:随着信息技术的发展,欺诈行为遍布世界各地,这导致了巨大的经济损失。虽然诸如CHIP&PIN等欺诈预防机制已经被开发应用于信用卡系统,但这些机制并不能阻止一些最常见的欺诈类型,比如在虚拟POS机上的信用卡欺诈使用,或者是所谓的在线信用卡欺诈邮购。所以,欺诈检测成为了一种必不可少的工具,并且可能是阻止此类欺诈类型的最佳方法。在此次研究中,提出了一种全新的代价敏感决策树方法,它将在每个非叶节点选择分裂属性时最小化误分类代价之和,其在现实世界信用卡数
3、据集上的性能可以与那些众所周知的传统分类模型相比较。在这种分类方法中,误分类代价将取不同的值。结果表明,在给定的问题集上使用已知的性能指标,比如准确度和真阳性率,此代价敏感决策树算法胜过现有公知的方法,而且针对特定的信用卡欺诈检测领域,还新定义了一种代价敏感指标。因此,通过在欺诈检测系统中实施该方法,可以更好的减少由于欺诈交易造成的金融损失。1. 引言欺诈可以被定义为为了取得财务或个人利益的非法或刑事欺骗。两种避免由于诈骗活动导致欺诈和损失的机制是欺诈预防以及欺诈检测系统。欺诈预防是以防止欺诈行为发生为目标的主动机制。欺诈检测系统在诈骗者越过欺诈预防系统并且开始一个欺诈交易时发挥作用。有关欺诈
4、领域以及检测技术的综述可以在Bolton and Hand (2002), Kou, Lu, Sirwongwattana, and Huang (2004), Phua, Lee, Smith, and Gayler (2005), Sahin and Duman (2010)的研究中找到。其中最知名的欺诈领域是信用卡系统。可以通过许多方法进行信用卡欺诈,如简单盗窃,申请欺诈,伪造卡片,从未达卡问题(NRI)以及在线诈骗(在持卡人不存在的情况下)。在网络诈骗中,交易是通过远程完成的,并且只需要信用卡信息。由于网络的国际可用性和易用性,用户可以在互联网交易中隐藏自身位置以及身份,所以通过该媒介
5、发生的欺诈行为正在快速增长。信用卡欺诈检测有很多以前已经完成的研究。关于信用卡系统以及欺诈领域非技术性知识的一般背景可以分别从Hanagandi, Dhar, and Buescher (1996) and Hand and Blunt (2001)学习。在这个领域中,最常用的欺诈检测方法有规则归纳技术,决策树,人工神经网络(ANN),支持向量机(SVM),逻辑回归以及诸如遗传算法的启发式算法。这些技术可以单独使用,也可以通过集成以及元学习技术协同使用来构建分类器。大多数信用卡欺诈检测系统在使用监督算法,比如神经网络(Brause, Langsdorf, & Hepp, 1999; Dorro
6、nsoro, Ginel, Sanchez, & Cruz, 1997; Juszczak, Adams, Hand, Whitrow, & Weston, 2008; Quah & Sriganesh, 2008; Schindeler, 2006; Shen, Tong, & Deng, 2007; Stolfo, Fan, Lee, Prodromidis, & Chan, 1997; Stolfo, Fan, Lee, Prodromidis, & Chan, 1999; Syeda, Zhang, & Pan, 2002; Prodromidis, Chan, & Stolfo, 2
7、000),ID3、C4.5和C&RT一类的决策树技术(Chen, Chiu, Huang, & Chen, 2004; Chen, Luo, Liang, & Lee, 2005;Mena, 2003; Wheeler & Aitken, 2000)以及支持向量机(Gartner Reports, 2010; Leonard, 1993)。信用卡欺诈检测是一个非常困难,但也很受欢迎的亟待解决的问题。总是仅有有限数量有关犯罪交易的数据。同时,也有可能存在诈骗者进行符合正常(合法)行为模式(Aleskerov, Freisleben, & Rao, 1997)的交易通过的情况。此外,该问题还有很多
8、限制。首先,正常和诈骗行为的表现不断地改变。其次,新欺诈检测方法的发展变得更加困难是由在欺诈检测中交换思想的事实造成的,尤其是信用卡欺诈检测因为安全和隐私问题被严格限制。第三,数据集不一定是可用的,其结果往往是截尾的,这使得它们难以评估。甚至,一些研究使用合成产生的数据进行(Brause等, 1999; Dorronsoro等, 1997)。第四,信用卡欺诈数据集是高度倾斜集。最后,该数据集正在不断发展,使得正常和诈骗行为的表现总是在变化(Bolton & Hand, 2002; Kou等, 2004; Phua et al., 2005; Sahin & Duman, 2010)。因此,信用
9、卡欺诈检测仍然是一个流行的,具有挑战性以及困难的研究课题。Visa关于欧洲国家的信用卡欺诈报告指出在2008年,大约50%的信用卡欺诈损失是由于在线欺诈(Ghosh & Reilly, 1994)。许多文献报道了大量不同国家的损失(Bolton & Hand, 2002; Dahl, 2006; Schindeler, 2006)。因此,新方法提高了在这一领域的分类器性能兼有经济意义与研究贡献。基于这个领域的特性,定义一个新的代价敏感方法是改善的最佳途径之一。虽然传统的机器学习技术在许多分类问题上一般是成功的,但是具有高准确度或最小化误分类误差并不总是开发分类器的目标。在现实世界的机器学习问题
10、领域的应用中,有各种类型的代价参与,Turney定义了其中的九种主要类型(Turney, 2000)。然而,大多数机器学习文献并不采取任何这些代价的考虑,仅仅剩下的一小部分考虑了误分类代价。Turney还指出误分类误差的代价在分类中具有独特的地位(Turney, 2000)。而根据ML-netll项目(European Network of Excellence in Machine Learning)的技术路线图,代价敏感学习据称是在机器学习研究的未来中一个非常流行的课题(Saitta, 2000; Zhou & Liu, 2006)。因此,通过构建代价敏感分类器来改善分类器在欺诈检测系统中
11、的性能是一个使大量经济损失恢复的最好办法。此外,客户的忠诚度和信任度也将有所增加。并且代价敏感分类器已经被证明能够有效处理类不平衡问题(Thai-Nghe, Gantner, & Schmidt-Thieme, 2010; Zhou & Liu, 2006)。大量过去的研究是在恒定的误分类代价矩阵或者由一些恒定的合成误分类代价组成的代价矩阵上进行的;然而,每个假阴性(FN)具有它固有的独特的误分类代价。因此,每个假阴性(FN)应当以某种方式排列来显示误分类代价的差异。例如,具有较大交易量的或者更大可用额度的欺诈交易应该比具有较小数量或可用额度的更需要被检测。恒定代价矩阵或者不变代价矩阵的组合不
12、能描述这个场景。所以,本研究是在可变误分类代价的分类问题工作中,将这样的情况纳入考虑的开拓者之一。这项研究的目的是填补信用欺诈检测文献的一项空白。在此研究中,开发了一个新的代价敏感决策树归纳算法,它将在树的每个非叶节点选择分裂属性时最小化误分类代价之和,并且分类性能可以与那些无论是代价不敏感还是代价敏感的具有固定误分类代价率的传统分类方法相比较,比如传统决策树算法,人工神经网络和支持向量机。结果表明,就诈骗交易的辨别和防止可能的损失量而言,这个代价敏感决策树算法在我们现实世界数据集上的表现优于现有公知的方法。在信用卡欺诈检测中,误分类代价以及欺诈的优先序基于个人记录来区别不同。其结果是,常见的
13、性能指标,如准确率,真阳性率(TPR)或者甚至曲线下面积(AUC)并不适合评估模型的性能,因为它们接受每个欺诈是具有相同优先级,不管欺诈交易量或者当时交易中用卡的可用信用额度是多少。应该使用一个使用有意义的方式按序排列欺诈交易以及检查模型在最小化总经济损失时性能的全新性能指标。一旦诈骗者得到使用信用卡进行诈骗交易的机会,他们通常消耗完一张信用卡的可用信用额度。因此,一个欺诈交易的经济损失可以假定为交易前卡的可用信用额度,而不是交易的数量。这样,模型在测试集上的性能比较可以使用新定义的代价敏感性能指标挽回损失率(SLR),也就是从欺诈交易中信用卡可用额度之和的潜在经济损失中挽回的百分比。为了显示
14、我们观点的正确性,在模型性能的比较中,代表模型性能的真阳性率(TPR)的值也会给出。本文的其余部分安排如下:第二章节给出机器学习中代价敏感方法的回顾;第三章节给出对于信用卡数据的结构的一些见解;第四章节给出新开发的代价敏感决策树算法的细节;第五章节给出结果以及对结果的简短讨论;第六章节总结本研究。2. 机器学习中的代价敏感方法有不同方法用于构建将代价敏感性考虑在内的分类模型。第一个通过改变过采样或欠采样的训练数据分布来建立代价敏感分类模型,使得该集合中数据的代价可以表现出例子的形态。一些研究试图通过分层来克服误分类代价问题;以及当数据集不平衡时复制或丢弃样本(Japkowicz, 2000;
15、Kubat & Matwin, 1997)。然而,这些研究人员假设代价矩阵的内容是固定的数字,而不是依赖记录的值。研究人员如Domingos试图建立像MetaCost的机制去将代价不敏感分类器转换为代价敏感分类器(Domingos, 1999; Elkan, 2001)。根据一些研究报告,过采样对于不平衡数据集的学习是有效的(Japkowicz & Stephen, 2002; Japkowicz et al., 2000; Maloof, 2003)。但是,过采样增加了训练的时间,并且因为它创建了不少较小类样本的拷贝,所以可能会导致过拟合问题(Chawla, Bowyer, & Kegelm
16、eyer, 2002; Drummond & Holte, 2003)。不同于过采样,欠采样试图减少较多类的样本数量,以便于实现训练集数据关于类分布的平衡。一些研究表明欠采样善于处理不平衡数据问题(Drummond & Holte, 2003; Japkowicz & Stephen, 2002; Japkowicz et al., 2000; Maloof, 2003)。第二种方法是当建立分类模型时将代价敏感性考虑在内,调整廉价类的阈值使得昂贵类样本的误分类更加困难以此最小化误分类代价(Langford & Beygelzimer, 2005; Maloof, 2003; Sheng & L
17、ing, 2006; Zhou & Liu, 2006)。过采样,欠采样和调整阈值不会更改算法,因此可以被用于几乎所有的算法(Ma, Song, Hung, Su, & Huang, 2012)。然而,前两者会改变模型算法的输入,而后者会改变由该算法构建的模型的输出(Zhou & Liu, 2006)。就如调整阈值,在学习算法中对昂贵类增加学习速率,如果这样,可以使模型更多地学习高代价的样本,而不是低代价的(Kukar & Kononenko, 1998; Wan, Wang, & Ting, 1999)。最后一种考虑代价敏感性的方法是修改代价不敏感学习算法或定义一个新的代价敏感算法。如果该算
18、法是一个基于决策树的,这可以通过要么使用代价敏感方式分裂或用代价敏感方法剪枝或提供额外的代价调整函数来完成。虽然许多研究人员使用不同的启发式方法来建立代价敏感决策树(Breiman, Friedman, Olshen, & Stone, 1984; Brodley, 1995; Draper, Brodley, & Utgoff, 1994),有些人使用不同的技术来剪枝使用误分类代价按传统方法建立的决策树(Bradford, Kunz, Kohavi, Brunk, & Brodley, 1998;Knoll, Nakhaeizadeh, & Tausend, 1994)。3. 信用卡数据的结
19、构在这项研究中使用的信用卡数据是从一个银行的信用卡数据仓库中使用所需的权限获取的。信用卡数据仓库中的以往数据被用来形成表示客户卡使用情况的数据集市。数据集市中的数据被用于形成在建模阶段使用的训练集和测试训练模型阶段使用的测试集。原始数据的时间区间共有12个月,用于形成具有大约22万条信用卡交易的训练集。这个数据关于正常和欺诈交易的分布是高度倾斜的。这12个月期间,用于建立我们样本数据包括978条诈骗记录以及大约22万条正常记录,这个比例大概是1:22500。所以,为使模型能够学习这两类样本,我们使用分层抽样去下采样合法记录到一个有意义的数字。我们试着采样到不同的合法/欺诈比值。此外,所有属于过
20、去6个月时间段的数据,包括含有484条欺诈交易的大约11344000条交易记录直接包含在测试集中。测试集中的所有交易都通过分类方法得分。训练和测试集的数据分布在表1中给出。每一张信用卡的交易数量都与其它的不同,但是每条交易记录都是相同的固定长度,并且包含相同的字段。Hand和Blunt给出了一个信用卡数据特点的描述(Hand & Blunt, 2001)。虽然一些客户可能拥有超过一张的信用卡,但是每张卡被视为一个独特的配置文件,因为拥有超过一张卡的客户出于不同的目的,通常在不同的客户配置文件中使用每张卡。每张卡的配置文件中包含了能够透露用卡行为特征的变量。这些变量可以表示针对位置,时间或者交易
21、发生地点类型的信用卡交易模式。欺诈检测系统使用分类模型通过鉴别与给出卡使用的配置文件的显著偏差去检测诈骗活动。这些变量不仅从交易本身,而且还从卡过往的交易历史中派生。我们的内容将提及使用的变量类型,但是出于对隐私,保密性和安全性的担忧,我们是不被允许谈论变量的完整列表。这些变量是五个主要变量类型中的一个:所有的交易统计,地区统计,商户类型统计,基于时间交易额的统计以及基于时间的交易数量统计。一些变量可以表述为交易类型,商户类别码,POS输入模式,PIN输入能力,卡类型,卡域以及卡使用国家。所有交易统计类型中的变量大体上透露了持卡人使用卡的一般信息。区域统计类型的变量给出有关地理区域的持卡人消费
22、习惯。属于商户类型统计的变量显示持卡人在不同商户类别使用卡的情况。基于时间的统计类型变量鉴别出卡关于使用额度或使用频率与时间范围关系的使用信息。当评估信用卡的一个新交易时,通过这些变量可以鉴别出其与卡正常使用信息的偏差,从而给出欺诈使用的信号。所以,对于每一张卡的每一笔交易,这些变量每一个都需要计算,并且包含在测试集中。4. 代价敏感决策树方法对现实世界分类问题进行建模的最大问题之一是数据分布不平衡,而且在信用卡欺诈检测的情况下,识别属于较少类的记录比识别属于较多类的记录更为重要。解决该问题的一个有效方法是代价敏感建模,使得误分类较少类记录的代价比误分类较多类的记录更大。在本文中,给出了开发一
23、个代价敏感决策树算法去识别信用卡欺诈交易的细节。在公知的决策树算法中,分裂条件要不是对代价和类分布不敏感,就是代价固定为恒定比率,如此使得将欺诈交易分类为正常(假阴性,FN)的代价是将正常交易分类为欺诈(假阳性,FP)的N倍。此外,在这些算法中,误分类的代价仅在剪枝过程中纳入考虑,而归纳过程并不考虑。这里有一些以前针对代价敏感树归纳做的研究,其中误分类的代价仅仅依赖于类(Drummond & Holte, 2000a; Drummond & Holte, 2000b; Ling, Sheng, & Yang, 2006; Liu, 2009),或者是个别样本自身(Duman & zelik,
24、2011; Ling, Yang, Wang, & Zhang, 2004)。就我们所知,这是在信用卡欺诈检测中使用不同的误分类代价来探索代价敏感决策树归纳算法特定应用组合的第一项工作。表1 关于类别的数据分布集合记录实际记录数量集合中记录数量训练集正常220000008802欺诈978978测试集正常1364400013644000欺诈484484在信用卡交易中,每次欺诈交易会产生一个不同的代价,所以对每一笔欺诈交易使用一个固定的误分类代价并不适合我们的问题。从而,我们对每笔交易使用一个不同的代价,这是它们自身固有的。除非诈骗者提交的第一笔欺诈交易没有被检测到,否则他们在获得使用卡进行交易的
25、可能后,通常在随后的交易中花完信用卡里所有可用的信用额度。他们一般设法用平均四到五次交易来实现这个目标(Duman & zelik, 2011)。因此,将欺诈交易鉴定为合法的实际代价就和交易中信用卡使用的可用信用额度一样大。故而,一笔欺诈记录的误分类代价被定义为交易中信用卡使用的可用信用额度,而不是交易量和预先定义的固定的代价值。另外,这个假设在代价和每笔欺诈交易之间做出了区分。换句话说,检测出使用有高额可用信用额度的卡进行的欺诈交易比使用有低额可用信用额度的卡进行的欺诈交易能挽救更多的损失。如此,检测到的第一笔欺诈交易的优先级比第二笔高。因此,每个假阴性都有不同的误分类代价,同时,对于模型性
26、能的,应该使用代价敏感指标评价而不是基于检测到欺诈数量的指标,如式(1)中给出的新定义的能够反映挽回的所有可用信用额度所占百分比的指标SLR。 ,其中k表示被检测到的欺诈数,f表示欺诈的总数,(CFN)j表示FNj的误分类代价 (1)经典的决策树模型并不适用于依据个别交易确定可变误分类代价的情况。因此,我们开发了一种新的代价敏感决策树算法,其决策树学习算法中的分裂条件受各个误分类代价改变的影响。我们算法使用的代价指标在表2中给出。对于正常交易的误分类代价(CFP),我们的算法假定一个固定的误分类代价是由一些特定的程序和采访银行工作人员与领域专家找到的。该算法取交易中所用卡在交易前的可用信用额度
27、作为欺诈交易的误分类代价(CFN)。这里新定义的代价敏感决策树学习算法选择一个节点分裂变量的方法是如果一个分裂是可能的,那么一定是基于总误分类代价的减少,而不是杂质的减少。我们假设FP是实际上是正常的交易被错误分类为欺诈的,而FN是实际上是欺诈的交易被错误分类为合法的。开始时,训练集中所有的交易都被分配给树的根节点。首先,计算该节点的代价。在决策树中,一个节点上的所有交易都可以被分类为要不是欺诈的,那么就是合法的。因此,无论是将节点上的交易标记为欺诈(CP)的总误分类代价,还是将交易标记为正常的(CN)总误分类代价,都需要计算。为了计算法CP和CN,我们使用四种不同的方法:CS直接代价(CS
28、Direct Cost),CS类概率(CS Class Probability),CS-基尼(CS Gini)和CS-信息增益(CS Information Gain)。在CS直接代价方法中,我们在代价计算函数中不整合任何不纯性度量,并且仅通过使用独立降低总期望分类代价的方法来寻找最佳分裂。这种代价方法是从Ling等 (2004), Zubek and Dietterich (2002), Greiner, Grove, and Roth (2002)处受到的启发。这种方法选择能够最大程度上减少总误分类代价的变量来替代使用不纯性度量寻找分裂变量。在将交易标记为正常(CN)的情况下,总误分类代价
29、是该节点每个欺诈表2 使用的代价指标实际值预测值阳性(欺诈)阴性(合法)阳性(欺诈)真阳性(TP)(误分类代价=0)假阴性(FN)(误分类代价=CFN)阴性(合法)假阳性(FP)(误分类代价=CFP)真阴性(TN)(误分类代价=0)记录的可用信用额度(CFN)i)之和。将合法交易标记为欺诈只会造成一个对于每个合法交易相同的观测代价(CFP)。因此,在该方法中,只有误分类代价在树归纳和分类中使用。假设有“f”个欺诈记录和“n”个正常(合法)记录,它们落在一个节点上,那么“N”(N = f + n)给出该节点记录总数,CP和CN的计算在下面的式(2)和式(3)中给出: (2) (3)不同于CS直接
30、代价方法不管数据的类分布以及节点的不纯性,仅仅使用期望的总误分类代价去寻找当前节点的最佳分裂的情况,传统的决策树归纳技术使用类分布或者在某些方面使用不纯性度量来寻找下一层的分裂。因此,使用下面的方法在代价敏感分裂机制的节点上添加类分布以及不纯性的影响,我们使用从著名的传统决策树算法ID3,C5.0和C&RT中得到的启发,修改寻找分裂的误分类代价计算。这些传统的决策树方法使用不纯性度量去选择分裂属性和分裂值。ID3(Prodromidis等, 2000)使用熵和信息增益,而之后的C5.0使用增益比,C&RT(Wheeler & Aitken, 2000)则使用基尼用于不纯性度量。对于二类问题,期
31、望信息(熵)与基尼的计算方法在下面的式(4)中给出:a.b. 其中pi表示类i的相对频率 (4)在CS类概率方法中,类的相对频率(类概率)被集成到代价计算函数中,用于增加类分布对该节点代价的影响。由于该节点上某类的相对频率增大,那么在该节点就会有更多的记录属于这个类。因此,若使用如ID3和C5.0决策树方法中的相应不纯性度量,该节点上的记录将会被分配给此类。又因为我们决定根据误分类代价标签该节点,所以我们应该将该类的代价与它类的相对频率相乘,这样使得我们将更多的降低拥有更高相对频率类的代价。故而,我们将减少选择有较高频率类的代价。顺便说一下,我们倾向于在节点上用更高频率的类。在CS-类概率方法
32、中,CP和CN的计算方法由下面的式(5)和式(6)给出: (5) (6)在CS基尼方法中,受到C&RT中使用的基尼不纯性度量的启发,类概率的平方被集成到代价计算函数中,以另外一种方法来增加类分布对于节点代价的影响。我们将一个类的代价与它类相对频率的平方相乘,从而比CS类概率方法能更多的降低高相对频率类的代价。在CS基尼方法中,CP和CN的计算方法由下面的式(7)和式(8)给出: (7) (8)在CS信息增益方法中,受到ID3使用的信息增益不纯性度量的启发,相对类概率的负对数被集成在代价计算函数中,以另外一种方式来增加类分布对于节点代价的影响。因为相对频率的对数是非正值,所以我们乘以负1使其变为
33、非负。在CS信息增益方法中,CP和CN的计算方法由下面的式(9)和式(10)给出: (9) (10)在每一种情况下计算误分类代价之后,如式(11)所示,选择具有最小代价的情况作为该节点误分类代价。节点上的交易被分配给具有最小总期望误分类代价的类(N=正常,F=欺诈)。由于将欺诈标记为欺诈和将合法标记为合法的误分类代价为0,所以它们是不会被包括在误分类代价的计算中。该节点被标记为具有最小总误分类代价的标记类,见式(12)。 (11) (12)在找到每个类的误分类代价之后,被发现是欺诈的或是正常的类概率如下面的式(13)和式(14)所示。因为分类算法基于误分类代价,所以当一个类的误分类代价更大时,
34、成为另一个类的概率越大。因此,这导致误分类代价越小的类将被选择作为该节点的类。在一个节点,一个类的误分类代价越大,那么该节点上的记录属于该类的可能性越小。故而,在一个类误分类代价和该类可能性(P)之间存在某种反比关系。 (13) (14)从根节点开始,每一个节点都会检查在该节点分裂中最适合使用的变量,如果一个分裂是可能的,那么将会尽可能的减少总误分类代价。根据变量类型分裂一个节点的方法如下:多分裂用于特征,而二元分裂用于数值(范围)变量。在发现上述每个子节点(CCN)的代价之后,分裂后子层的总代价(CT)就如式(15)所示(假设分裂后有m个子节点)。相比使用诸如增益率的公式,我们更喜欢在分裂之
35、后直接划分子节点的数目,因为(Liu, 2009; Sheng等, 2006)表示这样做不仅克服了信息增益的缺点,同时建立了面向增益比的实际问题。 (15) 分裂之后,子节点代价之和除以子节点的数目使得相比导致更少分裂节点的变量,不会偏向选择造成更多分裂节点的变量。如果子层的总代价比父节点的代价要小,那么就会有误分类代价的减少,这个分裂就是要使用的候选。针对每个输入变量,使用每一个可能的分裂在候选分裂中寻找最佳代价降低,并且在子层给出最佳代价降低的分裂将被选为该节点的分裂。如果没有能造成代价降低的候选分裂,或者一个节点上的交易数目低于允许的最小交易数目,那么父节点将会被标记为一个叶节点。通过节
36、点的误分类代价计算,不仅仅是该节点的类,还有该节点上的交易是欺诈还是正常的概率也会被发现。5. 结果和讨论在真实世界的例子中,大多数信用卡操作管理部门只有有限的员工来监测欺诈警报。所以,许多欺诈检测系统应该展示其在一个固定数量欺诈警报情况下的最佳性能。就我们而言,我们的数据供应商银行仅仅检查所有交易的8%。因此,我们根据分类模型给出的记录欺诈可能性,对记录在测试集中进行排序,并在测试集前8%的风险交易中比较模型的性能。因为每个欺诈记录的代价是不同的,所以每一个每一笔欺诈应该根据其代价进行优先排序。从而,检测一个具有高代价的欺诈应该比检测一个低代价的欺诈更为重要。于是,应该根据误分类代价来评估模
37、型的性能,也就是说比如准确度或精度(或真阳率TPR)一类的常见性能指标并不适合评价像这种情况一样拥有不同误分类代价的模型的性能。这就是为什么在测试集上使用挽回损失率(SLR)来比较性能,其表示从欺诈交易用卡的可用信用额度的潜在经济损失中挽回的百分比。为了表明我们观点的正确性,模型性能的TPR值与SLR值一同给出。表3 ANN模型性能的统计学分析 ModelNMeanStd.dev.Std.error mean Group statistics SLRDynamic1086.892.859860.90437Quick1087.601.320770.41767 TPRDynamic1090.620
38、.833730.26365Quick1090.600.543650.17192Independent samples testLevenes test forequality ofvariancest-test for equality of meansFSig.tdfSig. (2-tailed)Mean differenceStd. error difference95% Confidence interval of the differenceLowerUpper SLREqual variances assumed16.8190.001-0.71318.0000.485-0.71000
39、0.99615-2.802841.38284Equal variances not assumed-0.71312.6720.489-0.710000.99615-2.867731.44773 TPREqual variances assumed4.5470.0470.06418.0000.9500.020000.31475-0.641260.68126Equal variances not assumed0.06415.4820.9500.020000.31475-0.649060.68906在本次研究中,在使用相同方法和不同参数开发的模型中,选择表现出最佳性能的模型,并且将它们的性能与本研
40、究中定义的使用代价敏感决策树算法建立的模型性能相比较。于是,在SPSS PASW Modeler中使用传统决策树方法建立的模型中选择六种模型。这些模型是使用C5.0,CART,CHAID,带有固定代价比5:1的CHAID(误分类一个欺诈记录的代价是误分类合法记录的5倍),Exhaustive CHAID(CHAID一个详细展现预测变量合并和测试的扩展),以及带有5:1代价比率的Exhaustive CHAID。在人工神经网络模型中,两个性能最佳的模型是在SPSS PASW Modeler中使用动态和快速网络建立的。在这个快速的方式中,训练了一个单隐层前馈BP神经网络。默认情况下,该网络具有一个
41、最多包含(3 * (ni + no) / 20)神经元的隐藏层,其中ni表示输入神经元的数量,no表示输出神经元的数量。该网络采用反向传播方法训练。在动态方法中,又训练了一个单隐层前馈神经网络,然而,网络的拓扑结构在训练时发生了改变,神经元不断加入以提升性能直到该网络达到期望的准确率。有两个地方需要动态训练:寻找拓扑结构和训练最终网络。对于不同的10个测试结果中的每一个,动态和快速方法在测试集上的性能统计是最好的。在TPR和SLR方面,并没有发现这两种人工神经网络方法的性能有统计学意义上的差别。详细的分析在表3中给出。同时还在使用SVM方法建造的模型中选择一个有最佳性能的模型。所有被选择模型的
42、性能在表4中给出。在使用传统方法建造的被选择模型中,人工神经网络模型在欺诈捕获或TPR方面表现出了最佳性能,并且其中一个在SLR方面有最佳性能。然而,在TPR和SLR方面,三个代价敏感决策树模型的性能优于所有其它模型。我们的CS直接代价方法仅仅使用误分类代价去建造树,故表现出最差的性能。尽管以前的研究指出只使用预期误分类代价的方法性能优于许多传统的代价敏感方法(Ling等, 2004),图1和图2给出的我们的结果表示我们不能仅仅使用误分类代价去分类,而且应该描绘类分布和数据不纯性在某些方面对我们代价计算的影响。表4 模型性能模型TPTPRSLR动态-平均43990.686.9动态-最佳4459
43、1.990.7动态-最差43389.583.7快速-平均43990.687.6快速-最佳44391.589.6快速-最差43389.586.0C5.043590.085.0C&RT43189.084.7CHAID43589.984.7Exhaustive CHAID43589.984.7SVM(多项式)40283.178.3CS-直接代价(CFP=30)36174.673.3CS-类概率(CFP=50)44692.194.9CS-基尼(CFP=5)44992.895.8CS-信息增益(CFP=25)44892.695.2CFP表示假阳性的代价。图1和图2给出了在TPR和SLR这两方面,使用如此
44、组合构建的代价敏感决策树模型表现出最佳性能。对于人工神经网络模型和代价敏感决策树模型,虽然性能TPR十分接近,欺诈捕获的差别也十分小,但在模型性能SLR上有巨大的差别,也就是说通过这些模型,能恢复的经济损失量有巨大的不同。此外,因为不将任何类分布和不纯性度量纳入考虑,CS直接代价显示出在TPR和SLR上有最差性能。通过图1和图2给出的代价敏感决策树模型和其它模型的性能对比,我们可以清楚地发现除了CS直接代价以外的代价敏感方法比其它方法可以挽救更多的经济财产。金融机构普遍担心总的经济损失或恢复,而不是欺诈交易被检测到的数量。所以,该使用代价敏感方法建立的模型将满足他们在总恢复额上的需求。此外,这
45、些代价敏感模型在欺诈交易被检测次数上的性能也比传统分类器更好。检查图1和图2中的性能指数,可以看出,虽然动态和快速模型在性能TPR的平均值上是相似的,但是模型的性能SLR是不同的,并且快速模型平均可恢复更多。最差动态模型性能和C&RT模型性能的比较是相同的。尽管它们的性能TPR有0.5%的差别,但是性能SLR有相反的1%的差别,这意味着一大笔金钱。由于这一指标直接描绘恢复的经济金额,所以更好的性能意味着能避免更多可能的经济损失。这表明,对于该问题,TPR并不是一个适合的性能指标,而SLR或者其它基于误分类代价的指标应该在这样的分类问题中使用。6. 总结在这项工作中,我们开发并实施了一系列用于信
46、用卡欺诈检测的代价敏感决策树方法,且表明它们的性能比使用诸如决策树、人工神经网络和支持向量机一类的传统数据挖掘方法建造模型更好。我们提出了一个将依据各个独立记录的不同误分类代价纳入考虑从而进行分裂的新方法。模型性能在现实世界数据集上的对比显示该模型可以在现实世界系统中轻易实施。我们在现实世界数据集上评估了该所提算法,并证明了它可以用作应当将依据各个独立样本的不同误分类代价纳入考虑的分类问题的工作准则这个结论。我们发现如准确率和TPR这类著名的性能指标并不适合图1 关于真阳率(TPR)的模型性能图2 关于挽回损失率(SLR)的模型性能于该类问题,并制定了一个针对信用卡欺诈检测问题的新性能指标,用
47、于表示挽救的可用信用额度的百分比。在现实世界测试集上使用CS直接代价方法建立的分类器性能表明我们不能仅使用误分类代价,而不在代价计算中纳入类分布或不纯性度量。然而,使用我们在代价计算中包含信息的代价敏感方法对TPR和新定义的领域特定指标SLR两方面的分类性能有显著改善。我们认为这个新指标将会被广泛接受,并且在信用卡欺诈检测今后的研究工作中被采用。这些性能的改善表明了许多研究成果和管理上的启示。首先,研究了在诸如欺诈检测,特别是信用卡欺诈检测或医学诊断这类拥有不平衡数据领域的分类,其类之间的分类代价是高度不同的,所以应该关注使用代价敏感分类去建立可以用大误分类代价将较少类实例置于优先地位的分类器。虽然在医疗诊断领域有大量代价敏感建模的研究,但是我们的工作,正如我们所知的,是将使用决策树进行代价敏感建模和信用卡欺诈检测结