采购欺诈分析相关技术调研.doc

资源描述

目录采购欺诈分析相关技术调研 2 1.相关技术 3 1.1神经网络算法 3 1.1.1简介 3 1.1.2神经网络 3 1.1.2人工神经网络 4 1.1.2BP神经网络模型 6 1.1.4项目应用 8 1.2随机森林 8 1.1.1随机森林 8 1.1.2训练算法 9 1.1.2洞察 10 1.1.4结论 11 1.2决策树 12 1.2.1简介 12 1.2.2组成 12 1.2.3画法 12 1.2.4决策树的剪枝 13 1.2.5决策树的应用 14 18 采购欺诈分析相关技术调研摘要：采购指通过交换获取物料和服务的购买行为，为企业经营在合适的时间、地点、价格获取质量、数量合适的资源。本文在调研采购欺诈分析现状，以及对相关技术算法进行探讨，展望了防欺诈研究方向及其面临的挑战。 1.相关技术 1.1神经网络算法 1.1.1简介逻辑性的思维是指根据逻辑规则进行推理的过程；它先将信息化成概念，并用符号表示，然后，根据符号运算按串行模式进行逻辑推理；这一过程可以写成串行的指令，让计算机执行。然而，直观性的思维是将分布式存储的信息综合起来，结果是忽然间产生想法或解决问题的办法。这种思维方式的根本之点在于以下两点：1.信息是通过神经元上的兴奋模式分布储在网络上；2.信息处理是通过神经元之间同时相互作用的动态过程来完成的。 1.1.2神经网络思维学普遍认为，人类大脑的思维分为抽象（逻辑）思维、形象（直观）思维和灵感（顿悟）思维三种基本方式。人工神经网络就是模拟人思维的第二种方式。这是一个非线性动力学系统，其特色在于信息的分布式存储和并行协同处理。虽然单个神经元的结构极其简单，功能有限，但大量神经元构成的网络系统所能实现的行为却是极其丰富多彩的。神经网络的研究内容相当广泛，反映了多学科交叉技术领域的特点。主要的研究工作集中在以下几个方面：（1）生物原型研究。从生理学、心理学、解剖学、脑科学、病理学等生物科学方面研究神经细胞、神经网络、神经系统的生物原型结构及其功能机理。（2）建立理论模型。根据生物原型的研究，建立神经元、神经网络的理论模型。其中包括概念模型、知识模型、物理化学模型、数学模型等。（3）网络模型与算法研究。在理论模型研究的基础上构作具体的神经网络模型，以实现计算机模拟或准备制作硬件，包括网络学习算法的研究。这方面的工作也称为技术模型研究。（4）人工神经网络应用系统。在网络模型与算法研究的基础上，利用人工神经网络组成实际的应用系统，例如，完成某种信号处理或模式识别的功能、构造专家系统、制成机器人等等。纵观当代新兴科学技术的发展历史，人类在征服宇宙空间、基本粒子，生命起源等科学技术领域的进程中历经了崎岖不平的道路。我们也会看到，探索人脑功能和神经网络的研究将伴随着重重困难的克服而日新月异。 1.1.2人工神经网络人工神经网络（ArtificialNeuralNetworks，ANN）系统是20世纪40年代后出现的。它是由众多的神经元可调的连接权值连接而成，具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点。BP（BackPropagation）算法又称为误差反向传播算法，是人工神经网络中的一种监督式的学习算法。BP神经网络算法在理论上可以逼近任意函数，基本的结构由非线性变化单元组成，具有很强的非线性映射能力。而且网络的中间层数、各层的处理单元数及网络的学习系数等参数可根据具体情况设定，灵活性很大，在优化、信号处理与模式识别、智能控制、故障诊断等许多领域都有着广泛的应用前景。工作原理人工神经网络是由大量的简单基本元件——神经元相互联接而成的自适应非线性动态系统。每个神经元的结构和功能比较简单，但大量神经元组合产生的系统行为却非常复杂。人工神经网络反映了人脑功能的若干基本特性，但并非生物系统的逼真描述，只是某种模仿、简化和抽象。与数字计算机比较，人工神经网络在构成原理和功能特点等方面更加接近人脑，它不是按给定的程序一步一步地执行运算，而是能够自身适应环境、总结规律、完成某种运算、识别或过程控制。人工神经网络首先要以一定的学习准则进行学习，然后才能工作。现以人工神经网络对于写“A”、“B”两个字母的识别为例进行说明，规定当“A”输入网络时，应该输出“1”，而当输入为“B”时，输出为“0”。所以网络学习的准则应该是：如果网络作出错误的的判决，则通过网络的学习，应使得网络减少下次犯同样错误的可能性。首先，给网络的各连接权值赋予(0，1)区间内的随机值，将“A”所对应的图象模式输入给网络，网络将输入模式加权求和、与门限比较、再进行非线性运算，得到网络的输出。在此情况下，网络输出为“1”和“0”的概率各为50%，也就是说是完全随机的。这时如果输出为“1”(结果正确)，则使连接权值增大，以便使网络再次遇到“A”模式输入时，仍然能作出正确的判断。如果输出为“0”(即结果错误)，则把网络连接权值朝着减小综合输入加权值的方向调整，其目的在于使网络下次再遇到“A”模式输入时，减小犯同样错误的可能性。如此操作调整，当给网络轮番输入若干个手写字母“A”、“B”后，经过网络按以上学习方法进行若干次学习后，网络判断的正确率将大大提高。这说明网络对这两个模式的学习已经获得了成功，它已将这两个模式分布地记忆在网络的各个连接权值上。当网络再次遇到其中任何一个模式时，能够作出迅速、准确的判断和识别。一般说来，网络中所含的神经元个数越多，则它能记忆、识别的模式也就越多。特点（1）普通计算机的功能取决于程序中给出的知识和能力。显然，对于智能活动要通过总结编制程序将十分困难。人工神经网络也具有初步的自适应与自组织能力。在学习或训练过程中改变突触权重值，以适应周围环境的要求。同一网络因学习方式及内容不同可具有不同的功能。人工神经网络是一个具有学习能力的系统，可以发展知识，以致超过设计者原有的知识水平。通常，它的学习训练方式可分为两种，一种是有监督或称有导师的学习，这时利用给定的样本标准进行分类或模仿；另一种是无监督学习或称无为导师学习，这时，只规定学习方式或某些规则，则具体的学习内容随系统所处环境（即输入信号情况）而异，系统可以自动发现环境特征和规律性，具有更近似人脑的功能。（2）泛化能力泛化能力指对没有训练过的样本，有很好的预测能力和控制能力。特别是，当存在一些有噪声的样本，网络具备很好的预测能力。 (3)非线性映射能力当对系统对于设计人员来说，很透彻或者很清楚时，则一般利用数值分析，偏微分方程等数学工具建立精确的数学模型，但当对系统很复杂，或者系统未知，系统信息量很少时，建立精确的数学模型很困难时，神经网络的非线性映射能力则表现出优势，因为它不需要对系统进行透彻的了解，但是同时能达到输入与输出的映射关系，这就大大简化设计的难度。 (4)高度并行性并行性具有一定的争议性。承认具有并行性理由：神经网络是根据人的大脑而抽象出来的数学模型，由于人可以同时做一些事，所以从功能的模拟角度上看，神经网络也应具备很强的并行性。下面将人工神经网络与通用的计算机工作特点来对比一下：若从速度的角度出发，人脑神经元之间传递信息的速度要远低于计算机，前者为毫秒量级，而后者的频率往往可达几百兆赫。但是，由于人脑是一个大规模并行与串行组合处理系统，因而，在许多问题上可以作出快速判断、决策和处理，其速度则远高于串行结构的普通计算机。人工神经网络的基本结构模仿人脑，具有并行处理特征，可以大大提高工作速度。人脑存贮信息的特点为利用突触效能的变化来调整存贮内容，也即信息存贮在神经元之间连接强度的分布上，存贮区与计算机区合为一体。虽然人脑每日有大量神经细胞死亡（平均每小时约一千个），但不影响大脑的正常思维活动。普通计算机是具有相互独立的存贮器和运算器，知识存贮与数据运算互不相关，只有通过人编出的程序使之沟通，这种沟通不能超越程序编制者的预想。元器件的局部损坏及程序中的微小错误都可能引起严重的失常。 1.1.3 BP神经网络模型 BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层（input）、隐层(hidelayer)和输出层(outputlayer)。BP神经网络算法是在BP神经网络现有算法的基础上提出的，是通过任意选定一组权值，将给定的目标输出直接作为线性方程的代数和来建立线性方程组，解得待求权，不存在传统方法的局部极小及收敛速度慢的问题，且更易理解。 1.1.3.1传统的BP算法简述 BP算法是一种有监督式的学习算法，其主要思想是：输入学习样本，使用反向传播算法对网络的权值和偏差进行反复的调整训练，使输出的向量与期望向量尽可能地接近，当网络输出层的误差平方和小于指定的误差时训练完成，保存网络的权值和偏差。具体步骤如下：（1）初始化，随机给定各连接权[w],[v]及阀值θi，rt。（2）由给定的输入输出模式对计算隐层、输出层各单元输出 bj=f（■wijai-θj）ct=f（■vjtbj－rt）式中：bj为隐层第j个神经元实际输出；ct为输出层第t个神经元的实际输出；wij为输入层至隐层的连接权；vjt为隐层至输出层的连接权。 dtk=（ytk－ct）ct（1－ct）ejk=[■dtvjt]bj（1－bj）式中：dtk为输出层的校正误差；ejk为隐层的校正误差。（3）计算新的连接权及阀值，计算公式如下： vjt（n+1）=vjt（n）+?琢dtkbjwij（n+1）=wij（n）+?茁ejkaik rt（n+1）=rt（n）+?琢dtkθj（n+1）=θj（n）+?茁ejk 式中：?琢，?茁为学习系数（0<?琢<1，0<?茁<1）。（4）选取下一个输入模式对返回第2步反复训练直到网络设输出误差达到要求结束训练。传统的BP算法，实质上是把一组样本输入/输出问题转化为一个非线性优化问题，并通过负梯度下降算法，利用迭代运算求解权值问题的一种学习方法，但其收敛速度慢且容易陷入局部极小，为此提出了一种新的算法，即高斯消元法。 1.1.3.2改进的BP网络算法改进算法概述此前有人提出：任意选定一组自由权，通过对传递函数建立线性方程组，解得待求权。本文在此基础上将给定的目标输出直接作为线性方程等式代数和来建立线性方程组，不再通过对传递函数求逆来计算神经元的净输出，简化了运算步骤。没有采用误差反馈原理，因此用此法训练出来的神经网络结果与传统算法是等效的。其基本思想是：由所给的输入、输出模式对通过作用于神经网络来建立线性方程组，运用高斯消元法解线性方程组来求得未知权值，而未采用传统BP网络的非线性函数误差反馈寻优的思想。改进算法的具体步骤对给定的样本模式对，随机选定一组自由权，作为输出层和隐含层之间固定权值，通过传递函数计算隐层的实际输出，再将输出层与隐层间的权值作为待求量，直接将目标输出作为等式的右边建立方程组来求解。现定义如下符号（见图1）：x（p）输入层的输入矢量；y（p）输入层输入为x（p）时输出层的实际输出矢量；t（p）目标输出矢量；n，m，r分别为输入层、隐层和输出层神经元个数；W为隐层与输入层间的权矩阵；V为输出层与隐层间的权矩阵。具体步骤如下：（1）随机给定隐层和输入层间神经元的初始权值wij。（2）由给定的样本输入xi（p）计算出隐层的实际输出aj（p）。为方便起见将图1网络中的阀值写入连接权中去，令：隐层阀值θj=wnj，x（n）=－1，则： aj（p）=f（■wijxi（p））（j=1，2…m－1）。（3）计算输出层与隐层间的权值vjr。以输出层的第r个神经元为对象，由给定的输出目标值tr（p）作为等式的多项式值建立方程，用线性方程组表示为： a0（1）v1r+a1（1）v2r+…+am（1）vmr=tr（1）a0（2）v1r+a1（2）v2r+…+am（2）vmr=tr（2）……a0（p）v1r+a1（p）v2r+…+am（p）vmr=tr（p）简写为：Av=T 为了使该方程组有唯一解，方程矩阵A为非奇异矩阵，其秩等于其增广矩阵的秩，即：r（A）=r（A┊B），且方程的个数等于未知数的个数，故取m=p，此时方程组的唯一解为：Vr=[v0r，v2r，…vmr]（r=0，1，2…m－1）（4）重复第三步就可以求出输出层m个神经元的权值，以求的输出层的权矩阵加上随机固定的隐层与输入层的权值就等于神经网络最后训练的权矩阵。 1.1.3.3计算机运算实例现以神经网络最简单的XOR问题用VC编程运算进行比较（取神经网络结构为2－4－1型），传统算法和改进BP算法的误差（取动量因子α=0．0015，步长η=1．653） 1.2决策树 1.2.1简介项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy=系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。分类树（决策树）是一种十分常用的分类方法。他是一种监管学习，所谓监管学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。 1.2.2组成 □——决策点，是对几种可能方案的选择，即最后选择的最佳方案。如果决策属于多级决策，则决策树的中间可以有多个决策点，以决策树根部的决策点为最终决策方案。 ○——状态节点，代表备选方案的经济效果（期望值），通过各状态节点的经济效果的对比，按照一定的决策标准就可以选出最佳方案。由状态节点引出的分支称为概率枝，概率枝的数目表示可能出现的自然状态数目每个分枝上要注明该状态出现的概率。 △——结果节点，将每个方案在各种自然状态下取得的损益值标注于结果节点的右端。 1.2.3画法机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术，可以用于分析数据，同样也可以用来作预测。从数据产生决策树的机器学习技术叫做决策树学习,通俗说就是决策树。一个决策树包含三种类型的节点：决策节点：通常用矩形框来表示机会节点：通常用圆圈来表示终结点：通常用三角形来表示决策树学习也是资料探勘中一个普通的方法。在这里，每个决策树都表述了一种树型结构，它由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。当不能再进行分割或一个单独的类可以被应用于某一分支时，递归过程就完成了。另外，随机森林分类器将许多决策树结合起来以提升分类的正确率。决策树同时也可以依靠计算条件概率来构造。决策树如果依靠数学的计算方法可以取得更加理想的效果。数据库已如下所示：　　(x,y)=(x1,x2,x3…,xk,y) 相关的变量Y表示我们尝试去理解，分类或者更一般化的结果。其他的变量x1,x2,x3等则是帮助我们达到目的的变量。决策树实际上是将空间用超平面进行划分的一种方法，每次分割的时候，都将当前的空间一分为二，比如说下面的决策树：就是将空间划分成下面的样子： 1.2.4决策树的剪枝剪枝是决策树停止分支的方法之一，剪枝有分预先剪枝和后剪枝两种。预先剪枝是在树的生长过程中设定一个指标，当达到该指标时就停止生长，这样做容易产生“视界局限”，就是一旦停止分支，使得节点N成为叶节点，就断绝了其后继节点进行“好”的分支操作的任何可能性。不严格的说这些已停止的分支会误导学习算法，导致产生的树不纯度降差最大的地方过分靠近根节点。后剪枝中树首先要充分生长，直到叶节点都有最小的不纯度值为止，因而可以克服“视界局限”。然后对所有相邻的成对叶节点考虑是否消去它们，如果消去能引起令人满意的不纯度增长，那么执行消去，并令它们的公共父节点成为新的叶节点。这种“合并”叶节点的做法和节点分支的过程恰好相反，经过剪枝后叶节点常常会分布在很宽的层次上，树也变得非平衡。后剪枝技术的优点是克服了“视界局限”效应，而且无需保留部分样本用于交叉验证，所以可以充分利用全部训练集的信息。但后剪枝的计算量代价比预剪枝方法大得多，特别是在大样本集中，不过对于小样本的情况，后剪枝方法还是优于预剪枝方法的。 1.2.5决策树的应用某公司承担一段铁路维修任务，现因进入雨季，需要停工三个月，在停工期间如果搬走机械，需搬运费1800元，如果将机械留在原处，一种方案是花500元做防护措施，防止雨水浸泡机械，如不做防护措施，发生雨水浸泡时将损失10000元，如下暴雨发生洪水时，则不管是否有防护措施，施工机械留在原处都将受到60000元得损失，根据资料，该地区夏季高水位的发生率是25%，洪水的发生率是2%，请问:试用决策树法分析该公司施工队要不要搬走施工机械以及要不要做防护措施？ 1.绘制决策树，见图。 2.计算期望值。状态点2的期望值：0 状态点3的期望值：(-60000) ×0.02 = -1200(元) 状态点4的期望值：(-60000) ×0.02 + (-10000) ×0.25 = -3700(元) 3.选择损失最小的方案。 min{(0-1800),(-1200-500),(-3700-0)}=-1700(元) 以不搬走施工机械并作好防护措施最为合算。 1.2.6决策树优化——随机森林随机森林是一个高度灵活的机器学习方法，拥有广泛的应用前景，从市场营销到医疗保健保险。既可以用来做市场营销模拟的建模，统计客户来源，保留和流失。也可用来预测疾病的风险和病患者的易感性。随机森林是一个可做能够回归和分类。它具备处理大数据的特性，而且它有助于估计或变量是非常重要的基础数据建模。 1.2.6.1随机决策树我们知道随机森林是其他的模型聚合，但它聚合了什么类型模型？你可能已经从其名称、随机森林聚合分类（或回归）的树中猜到。决策树是由一系列的决策的组合，可用于分类观察数据集。 1.2.6.2随机森林算法引入了一个随机森林来自动创建随机决策树群。由于树随机生成的树，大部分的树(或许99.9%树)不会对学习的分类/回归问题都有意义。如果观察到长度为45，蓝眼睛，和2条腿，就被归类为红色。 1.2.6.3树的投票所以10000个（概率上）糟糕的模型有TMD什么好的？好吧，这样确实没什么特别的好处。但是随着很多糟糕的决策树被生成，其中也会有很少确实很优秀的决策树。当你要做预测的时候，新的观察到的特征随着决策树自上而下走下来，这样一组观察到的特征将会被贴上一个预测值/标签。一旦森林中的每棵树都给出了预测值/标签，所有的预测结果将被归总到一起，所有树的模式投票被返回做为最终的预测结果。简单来说，99.9%不相关的树做出的预测结果涵盖所有的情况，这些预测结果将会彼此抵消。少数优秀的树的预测结果将会超脱于芸芸“噪音”，做出一个好的预测。 1.2.6.4一个映射的例子随机森林在没有精心准备的数据映射的情况下也能学习。以方程f(x) = log(x)为例。制造一些假数据，并且加上一点儿噪音。 import numpy as np x = np.random.uniform(1, 100, 1000) y = np.log(x) + np.random.normal(0, .3, 1000) 如果我们建立了一个基本的线性模型通过使用 x 来预测y，我们需要作一条直线，算是平分log (x)函数。而如果我们使用一个随机的森林，它不会更好的逼近 log (x)曲线并能够使得它更像实际函数。你也许会说随机森林有点扰乱log(x)函数。不管怎样我都认为这做了一个很好的说明如何随机森林并未绑定于线性约束。 1.2.6.3变量选择随机森林最好的用例之一是特征选择。尝试很多决策树变种的一个副产品就是你可以检测每棵树中哪个变量最合适/最糟糕。当一棵树使用一个变量，而另一棵不使用这个变量，你就可以从是否包含这个变量来比较价值的减少或增加。优秀的随机森林实现将为你做这些事情，所以你需要做的仅仅是知道去看那个方法或参数。在下述的例子中，我们尝试去指出对于将酒分为红酒或者白酒哪个变量是最重要的。分类随机森林也很善于分类。它可以被用于为多个可能目标类别做预测，它也可以被校正输出概率。你需要注意的一件事情是过拟合。随机森林容易产生过拟合，特别是在数据集相对小的时候。当你的模型对于测试集合做出“太好”的预测的时候就应该怀疑一下了。产生过拟合的一个原因是在模型中只使用相关特征。然而只使用相关特征并不总是事先准备好的，使用特征选择（就像前面提到的）可以使其更简单。回归是的，它也可以做回归。我们已经发现随机森林——不像其它算法——对分类变量或者分类变量和真实变量混合学习的非常好。具有高基数（可能值的#）的分类变量是很棘手的，所以在你的口袋中放点儿这样的东西将会是非常有用的。一个简短的python例子 cikit-Learn是开始使用随机森林的一个很好的方式。scikit-learn API在所以算法中极其的一致，所有你测试和在不同的模型间切换非常容易。很多时候，我从一些简单的东西开始，然后转移到了随机森林。随机森林在scikit-learn中的实现最棒的特性是n_jobs参数。这将会基于你想使用的核数自动地并行设置随机森林。这里是scikit-learn的贡献者Olivier Grisel的一个很棒的报告，在这个报告中他谈论了使用20个节点的EC2集群训练随机森林。 from sklearn.datasets import load_iris from sklearn.ensemble import RandomForestClassifier import pandas as pd import numpy as np iris = load_iris() df = pd.DataFrame(iris.data, columns=iris.feature_names) df['is_train'] = np.random.uniform(0, 1, len(df)) <= .75 df['species'] = pd.Factor(iris.target, iris.target_names) df.head() train, test = df[df['is_train']==True], df[df['is_train']==False] features = df.columns[:4] clf = RandomForestClassifier(n_jobs=2) y, _ = pd.factorize(train['species']) clf.fit(train[features], y) preds = iris.target_names[clf.predict(test[features])] pd.crosstab(test['species'], preds, rownames=['actual'], colnames=['preds']) 随机森林相当容易使用，而且很强大。对于任何建模，都要注意过拟合。如果你有兴趣用R语言开始使用随机森林，那么就签出randomForest包。

展开阅读全文