医保欺诈行为的主动发现-数学建模论文.doc

资源描述

2015 年深圳杯数学建模竞赛论文医保欺诈行为的主动发现参赛队员：姓名学号学院所在系联系电话戴鑫 10131629 信息学院自动化 15356573010 吴倚天 10132376 理学院数学与应用数学 13764861265 马先强 10131048 药学院制药工程 18721291802 2015 年 5 月 30 日摘要中国医保体系覆盖面的不断扩大帮助了无数身患重病但无钱救治的家庭，但随之而来的是某些不法分子利用医保服务的漏斗进行骗保的违法行为，这使得国家医疗体系支出增多，医疗体系经济压力增大。要解决这一问题，防止医疗骗保，医疗体系必须全面掌握病人的行为记录和背景信息。但是由于医疗体系面对的病人信息太过庞大，且变化十分迅速，不可能使用传统的方法逐一检查病人的行为记录和背景信息，而必须使用高效和自动化的数据库挖掘工具，扫描病人行为，找出那些高度可疑的潜在违规用户进行调查，及时制止这部分用户的违规行为，防止危害的进一步扩大。数据挖掘是很好的处理大量数据，从中挖掘信息和知识的工具。对骗保行为来说，这一违规行为的病人在整个病人数据库中所占比例较小，且这部分病人的拿取药时间和开药金额等信息往往表现异常，与正常用户很不一样。就开药金额单张处方费用问题来说，如果将整个病人数据库视为一个点集，这部分病人就可以被视为“孤立点”。数据挖掘中的孤立点挖掘方法可以通过辨别孤立点和正常点之间的差异性找到他们。本论文采用基于分辨率的孤立点挖掘算法（RB 算法），建立了病人评估模型。 RB 算法最主要的优点是适用于海量的数据库，并且无需引入参数。但是 RB 算法仅从数据集全局出发寻找孤立点，会导致孤立点的寻找过程中忽略了数据点所在的类的密集程度对孤立点的影响。所以在 RB 算法的基础上提出了密集度加权的分辨率孤立点挖掘算法（WRB 算法），WRB 算法计算每个孤立点相距最近的类的稠密度测度作为分辨率的权重。从全局和局部出发，综合考虑数据点周围的点的个数以及每个孤立点与距离本身最近的类的密集度对比来计算每个数据点的孤立程度。就病人取药时间的问题，将病人的取药时间看作一个个点，将点的个数以及密集程度赋值，将一个病人的取药时间量化成一个值，使用一维格子分布密集度算法对其密集度进行度量，从而排序，最后结合实际，进一步提出了混合密度算法。最后我们将病人数据代入模型，通过 MATLAB，利用 RB 算法、WRB 算法以及密集度算法得出可疑病人，RB 算法以及 WRB 算法的交集即为可能用高额处方骗保的病人，而利用混合密度算法得出的孤立程度较大的点，即为可能存在骗保的病人。最后我们给出了每个科室的孤立程度最大的前十名，供有关部门进行调查，同时也给出总体前 10 名，在人力物力不足情况下，可优先调查。本文的创新点在于从孤立点挖掘的 RB 算法出发，考虑密集程度对孤立点的影响，在 RB 算法的基础上引入权重参数，构造了 WRB 算法。同时在考虑费用的基础上，考虑了拿药时间，从多角度验证嫌疑用户的欺诈行为。关键词：医疗骗保，数据挖掘，孤立点，孤立因子，密集度一、问题重述医疗保险欺诈，是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中，故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段，一是拿着别人的医保卡配药，二是在不同的医院和医生处重复配药。下面这些情况都有可能是医保欺诈：单张处方药费特别高，一张卡在一定时间内反复多次拿药等。我们已经拥有了病人资料、费用明细表、费用费表等核心的一些数据，我们需要在这些数据中找到可疑的病人或处方。二、数据处理与分析 2.1 数据预处理输入数据是孤立点挖掘的一个重要特征。模型的输入，一般是数据记录的整合，每个数据实例可以用一组属性值（也称特征，变量，维度等）来描述。属性值可以有不同的类型，如布尔型，连续型和离散型等。每个数据可以包含一个或多个类型相同或不同的属性。属性的性质决定了孤立点挖掘技术的适用性。比如，对于基于统计学的挖掘模型必须输入连续型或离散型额数据。本次的实验数据来自附件的 excel 中，由于数据存在着不完整，不规范，不匹配等问题，为了提高数据挖掘的质量，去除会对结果产生影响的因子，需要对数据进行预处理，数据预处理的过程包括三个步骤：（1）数据清洗：对于数据缺失项，根据其余各表补充，若无法补充关键要素则删除该数据。去除前后属性明显矛盾可能是由于记录错误而引起的数据项，如药品单价与费用为负值。（2）目标数据提取：第一题研究的单张处方药费特别高，而材料只给出了账单中的一个个条目，通过对 30 万条记录的比对，我们发现一张处方对应一个账单号，于是我们以同一账单号为条件，对数据进行条件加和，得到一个个对应一定费用的账单。此外我们对于每个病人的取药次数与分布也进行了提取。（3）数据规范化：由于附件中给出的费用数据范围太大，造成计算复杂度大大提高，故将数据属性数据按比例缩放，使之落入一个小的特定区间，本次实验采取的是最小-最大规范化方法，即对原始数据进行线性变换。假定属性 A 的最小最大值分别为 minA 和 maxA，那么规范后的 A 的属性值为 V v - minA maxA - minA 2.2 数据情况概述在建立模型之前我们希望通过观察数据的分部情况来决定采取什么算法去估计哪些用户为可疑用户，以八号科室为例，如下图由上述数据点可以看出，点的分布在一定程度上出现在一些区间集聚的特征，也就是如图所示的几个明显的条带，并且在最大点处，虽然寻找过大点的最直接思路是找最大的点，但我们可以看到，在最大值附近，有三个点，呈现了一定薄的层的特征，也就是说可能这虽然是个大的处方，但它可能也是正常的，比如是对一些严重疾病的处方，是正常处方，只不过概率比较小罢了。所以判断过高点不能仅从价格来判断，应该结合他的分布，一个感冒药的处方过高时，会脱离他的正常区间，在此过程中很可能停在一个不属于任何区间的“中间区域”，这种处方虽然可能价格不高，但它也应属于“过高点”的概念。通过以上分析，我们决定利用孤立点的概念，通过计算与点的孤立程度的方式来寻找这些不寻常的过高点。并且考虑到科室皆有集聚现象，但集聚情况并不相同，又为了防止一个科室的集聚遮住另一个科室的孤立点，我们采用了分科室讨论的方式。模型假设（1）不考虑科室中只有一个人得某种病，比如儿科中只有一个孩子得小儿麻痹的数据，导致此数据与儿科中其他数据明显不同，默认为每种病都有几个可用的数据。（2）不考虑某病人分开多次配药，我们默认每个病人配药就配一次或者极少次。即一个处方对应一个账单号。（3）只考虑费用的总和，某种费用有问题视为总费用有问题（4）不考虑由于特殊情况而出现的需要过多取药的情况四、符号说明 1.对于过大问题名次含义符号相对价格 x 孤立因子 ROF 每一步的分辨率大小 r1，r2，r3…… Smin 到Smax 之间所有分辨率变化次数 R 簇所包含的所有点的个数 ClusterSize 分辨率未变化钱 r0 分辨率变化次数 t 分辨率变化到当前步骤 T 2.对于取药过多问题设一个病人共有 n 次取药记录，且记录分别落入 m1,m2,m3,m4...mj 的日子，由于本次数据的日期只有 1 月 1 日到 1 月 31 日，以及 3 月 24 日，所以使其分别对应 1,2,3...31 以及 83，因为 3 月 24 日数下来就是 83（31+28+24），于是 m1,m2,m3,m4...mj,落于{1,2,3..31,83} 的区间，设各个日子有 gj 个记录，即有 gj 个点，把一个点记为 amjii ，即为该病人的第 i 个数据，且其落入 mji 日子,ji 表示这第 i 个点对应的日子序号。此外，在一维格子分布密集度算法下，定义 Mi 为第 i 个点的密集度分数，而 D 为所研究的那一个病人的总体密集度分数而在本文的改进算法中，取 E 表示该病人的最终合成密度分数，R 表示日间系数，表示病人数据在天与天之间分布的密集程度。而 k 表示单日最高次数占最终合成密度分数的比例，而（1-k）表日间系数所占比例。五、模型建立 1.对于过大问题 RB 算法：基于分辨率的孤立点挖掘思想，当分辨率十分高时，所有的点都可以被视作孤立点，当分辨率十分低时，所有的店都属于同一个类，即不存在孤立点。当分辨率增大的时候，相对更孤立的店就更容易被抛出。当分辨率逐步降低时，孤立度不高的点会被抛进一个类里去。因此，当分辨率不断变化，数据集中的每个点都会有一个累积的属性，可以用某个点的累积的类属性来度量这个点对于离它最近的类的孤立程度。首先定义邻近点的概念：在一个 k 维的数据空间 D 中，如果距离点 O 最近的 P 与点 O 之间的距离小于等于 1，那么 P 点就被定义是点 O 的邻近点，且 P 所有的邻近点也是 O 的邻近点。这里阀值被设为 1，而实际上其倒数就为分辨率，事实上这个阀值的初值的设定并不重要，因为当分辨率变化时，空间两点之间的距离是一个相对值。分辨率算法可以找到一个分辨率值使得所有点相互之间的距离大到没有一对能成为邻近点，也可以找到另外一个分辨率值使得所有点都是邻近点。下面定义基于分辨率的孤立因子（ROF）：当一数据集的分辨率在最大值和最小值之间变化的时候，数据集中某个点的孤立因子为，分辨率变化时，前后两个包含这个点的簇的大小的比率的累积值，即： ROF（O） R ClusterSize（O,rl -1）-1 l 1 ClusterSize(O, rl ) WRB 算法：RB 算法虽然具有无参数，鲁棒性高，实时性，更新能力强等优点，但是有两个缺点（ 1 ）判断孤立点的依据测度 R ClusterSize（O,rl -1）-1 ROF（O），完全依赖聚类产生的类所包含的点的个 ClusterSize(O, rl ) l 1 数。而没有考虑到不同的的类有不同的稠密性，在聚类的时候，也只是由全局设定的分辨率以及两点之间的欧式距离来决定目标点是否应该被划入某个簇。在对孤立点按孤立程度排序时，往往因为忽略类的稠密度，和数据点周围的局部环境使得孤立点的排序不正确，也就是说一个点在对一个较密集与较疏集欧式距离相同的情况下，其相对于较密集的孤立程度应比相对于较疏集的孤立程度要大，所以体现在算法上，其算法的等效距离要大。于是，在 RB 的基础上我们提出了 WRB 算法给定一个数据集 D，在当前分辨率下设定每个类的初始稠密度=1 If（在当前的分辨率下，类没有融合进新的数据点）该类的密集度不变 Else 类的稠密度=clustersize/M M=已经变化的分辨率值和倒数和当每个类如果融合进了新的点，类所在的范围必定也会变大。而当分辨率越来越当前分辨率变化数小，范围测度 M 1 就会越来越大，每个类融入的点越来越多， l 1 rl clustersize 稠密度值 Dc M 也会随之变化。 1 D t -T 最后的稠密度权重值即为： Wi c Md WRB 聚类算法思路：在当前分辨率 r 和数据集 D： 1.对于每个点 O，对于所有与点 O 间的距离小于等于阀值的点，找出每个维度正负方向与点 O 最近的领近点。 2.选择没有被打标记的数据点，为其赋上类标记 C。为其设定一个初始临近点数组 nChain，将 C 的类大小设置为 1 3.对该数据点的邻居点进行扫描，对于每个邻居点：如果该邻居点没有被打标记，则将该邻居点放入数组 nChain，并打上类标记为 C，将 C 的类大小加 1，如果该邻居点已经被打上类标记为 C’，则将类 C’的类大小加到类 C 的类大小上，并删除 C’ 4.将指针移到 nChain 的下一个点，重复步骤 3 知道 nChain 中所有的点都被遍历过 5.记录类 C 的大小 6.重复步骤 2-5 直到所有的数据点都被打上类标记 7.更新每个点的 ROF 值 2.对于取药过多其实所谓的取药过多并一定是总量多，指的应是不正常的频率，依据一维格子分布密集度算法，将一个点的密集度定义为 i-1 n Mi 1（/| mji - mjk | +1）+ 1（/| mji - mjk | +1） k 1 k i+1 n 而一个病人的密集度D = M k ，以下图为例 k 1 以上点分别得分 3/2 , 3/2 , 1, 所以总得分 4。给出 n=3 时的三个有代表情况有 D=4 D=6 D=8/3 由此可见，一维格子的密集度算法，能较好的体现点在格子中分布的密集程度。但有一个问题值得我们的思考，在日常的看病中，一天多次付费与连续多天付费哪个更不正常。也就是说如图 3 的情况与如图 2 的情况哪个更不正常通过实际研究发现，在医院中出现一天多次付款是可能的，比如你去看医生，医生让你先做个血检，于是你先交钱再血检，在医生看完你的报告后于是开药，接下来你就需要再付一次钱，这样一来就出现了一天两次付费的情况。而另一种每天付一次钱其实是少见的，比如现在的医院为了防止骗保，大多在医生开处方时不是一天一天开的，而是一下子开几天的药，就算是挂点滴，也是你在头一天交完所有钱，然后拿票据，之后几天凭票拿药。所以连续几天付款的情况值得怀疑所以，我们即要关注单日特别多以及过密的情况，还要关注出现不合理连续的情况，于是分别设置两个量，D 与 R，其中 D 表示按第一种方法计算而得的值, 表示过大与过密的情况， R 表示日间系数，表示病人数据在天与天之间分布的密集程度。以以上两个量分别表示的 R 仍然采用一维格子的密集度算法进行计算，所不同的是不再计同一日的分数例如 D=4 R=2 而同样在 n=3 下，连续的分布的情况也成了 R 最大的一种情况。也就是说 D 与 R 分别在两个极端情况下趋向最大，于是引入 K,作为比例系数，综合考虑两种情况，得到 E，最终合成密度分数 E K * D + (1- K ) * R 查阅相关文献可得 K=1/3。五、模型求解（除 4 以外以下三项仅以第 8 科室为例，其他数据见附表） 1.RB 算法：将 8 号科室的费用账单号和费用代入，计算孤立因子值，并取孤立因子最小的前十个值作为可疑用户，如图如图所示，RB 算法即求出了一般意义上的过大点即值较大又比较稀疏的点，符合主观判断与一般认知，另一方面也较为理想的找出了，落在集群之间的可疑点较好的完成了目标。从图中可以知道，账单号为 5325501、5154447、5350391、5404671、5082387、 5166412、5350169、5040638、5286466、5350085 对应的病人可能为可疑骗保人员。 2.WRB 算法：同样取第八科室数据，运行算法得到结果账单号 5154447,、5404671、5325501、550391、5082387、5166412、5350169、 5040638、5286466、5350085 对应的病人为可疑骗保人员两种算法得出的 8 号科室可疑病人前 8 位基本相同，仅在前，四位的排序上发生了一些区别，可见 WRB 对点有进一步细分的作用，并且可以看到较大的点被排进了前二，比 RB 更符合我们一般认为的点越大往往越容易被孤立的概念。而其实质上是因为权的不同导致的等效距离的不同。本次使用的 r 的一个循环增加步长为 0.005，此时最左边两个最大点的集的密度为 1，而第二集团为 0.056，所以由于比例原因，1 点与 2 点离第一集团变远了，事实上最终 1 点与 2 点也确实是被第二集团给吞噬了，其距离等效图如下。 3.对于取药过多的混合密度算法病人 Max_num R E(混合密度) 1 695344 3 2.00 2.33 2 510906 1 2.65 2.10 3 465846 4 0.76 1.84 4 532351 1 2.10 1.73 5 465341 1 2.01 1.67 6 578690 2 1.50 1.67 7 572624 2 1.50 1.67 8 509425 2 1.50 1.67 9 556797 2 1.48 1.65 10 422660 2 1.42 1.62 由数据来看病人 695344,510906,465846,532351 属于取药数较多的，应予以调查。 4.基于 WRB 给出所有数据中偏高最厉害的 20 个人先把各 wrof 除以自己科室的平均，再进行排序得账单号 w-rof/自己科室平均 5295581 0.000505981 1 5212844 0.000610558 2 5407149 0.000833378 3 5135118 0.001376269 4 5171663 0.001456812 5 5171663 0.001456812 6 5296712 0.001687799 7 5045181 0.001709791 8 5139158 0.0019727 9 5372698 0.002048972 10 5209713 0.002053181 11 5295057 0.002057407 12 5220176 0.00214134 13 5285031 0.002145937 14 5228241 0.002197672 15 5133710 0.002197672 16 5118923 0.002240687 17 5226994 0.002490547 18 5226994 0.002490547 19 5154447 0.005883914 20 这些账单是处方过大中嫌疑最大的账单，在医院及相关部门人力物力有限的情况下，可只对这 20 个账单优先予以追查。如人力物力足够可以，我们在附表中也提供了每科室 w-rof 的前 10 名，相关部门可以此为参考，展开调查工作。七、灵敏度分析对 8 号科室数据，分别用 RB 算法以及 WRB 算法运算，初始步长 0.0005，每次增加 0.0005，观察什么时候前十位的排名发生改变，发现 RB 的是在步长升到 0.0085 处发生了改变，约为原来的 17 倍，可见 RB 算法具有较好的鲁棒性，只要步长取得足够小，总能完成任务，而 WRB 算法直到 0.0095 才发生改变，说明 WRB 算法明显具有更好的鲁棒性。八、推广及应用数据挖掘可以通过合理的预测和分析来帮助企业规避风险，近几年在用户风险评估决策中的应用引起了商业领域越来越多的关注。银行用户分类通过孤立点算法数据挖掘将用户分到“好”的信用组即可能会按要求偿还银行贷款的用户和“差”的信用组即可能不能按要求偿还银行贷款的用户组中去，银行可以根据分类结果采取必要的措施以避免贷款拖欠的情况发生。在通讯行业，研究人员也可使用数据挖掘技术建立决策支持系统以预测不能缴清欠费的用户。所以孤立点算法可以帮助不同的行业找到那些可能违规的用户，识别违规用户的过程就是找出数据库中分布偏离的数据点。九、参考文献【1】孤立点数据挖掘技术研究及应用【2】基于关联规则及孤立点的信息舞弊特征识别研究【3】基于圆形领域孤立点挖掘算法的企业信用风险失真度研究【4】基于孤立点挖掘的信用卡产品用户风险研究【附表】各组 WROF 的前 10 名数据结果 8 账单号费用日期 rof wrof 5154447 0.934688395 9 39.75 0.9997 1 5325501 0.850064627 22 0.9997 28.9925 2 5350391 0.584839192 24 43.9886 71.9814 3 5404671 0.979674076 29 72.4167 88.3331 4 5166412 1 10 92.4167 107.3331 5 5350169 1 24 92.4167 107.3331 6 5082387 0.739843374 4 89.6869 121.048 7 5040638 0.528499379 1 95.9837 126.9749 8 5286466 0.535418303 19 95.9837 126.9749 9 5350085 0.779481461 24 104.6869 134.548 10 9 账单号费用日期 rof wrof 5359125 1 25 0.8333 0.8333 1 5238279 0.243570537 15 78.5 77.5 2 5271381 0.243570537 18 78.5 77.5 3 5208776 0.921972534 13 125.6333 124.0333 4 5257918 0.921972534 17 125.6333 124.0333 5 5270209 0.921972534 18 125.6333 124.0333 6 5391174 0.921972534 28 125.6333 124.0333 7 5391380 0.921972534 28 125.6333 124.0333 8 5271743 0.027465668 18 132.3426 130.639 9 5059323 0.021223471 2 138.3426 136.639 10 10 账单号费用日期 rof wrof 5264334 0.171561195 17 0.9818 0.9818 1 5408599 0.101818939 30 21.5625 23.4375 2 5283969 0.081153622 19 41.5261 41.5565 3 5409743 0.07504661 31 50 50.9091 4 5230238 0.094318949 15 54.303 53.3333 5 5213534 0.082313021 13 55.3636 55.3636 6 5243393 0.071215924 16 65.0095 62.7175 7 5274665 0.071232912 18 66.9042 65.2172 8 5110602 0.050907346 6 68 66 9 5238885 0.081153622 15 73.2925 70.4195 10 11 账单号费用日期 rof wrof 5296712 1 20 0.9831 0.9831 1 5114503 0.684873113 6 400.9658 400.9658 2 5134936 0.573323772 7 523.2442 412.7553 3 5367794 0.524202223 26 531.0624 530.6527 4 5269977 0.22274013 18 564.6624 543.1553 5 5325608 0.032030596 22 553.1005 554.1339 6 5319124 0.302298713 22 564.3124 562.1527 7 5394746 0.327118441 28 566.979 564.1527 8 5269611 0.247759053 18 593.1624 570.1553 9 5296711 0.247759053 20 593.1624 570.1553 10 12 账单号费用日期 rof wrof 5295581 1 20 0.0009 0.0009 1 5052706 0 2 1.8833 1.8833 2 5102141 0 5 1.8833 1.8833 3 5162726 0 9 1.8833 1.8833 4 5195585 0 12 1.8833 1.8833 5 5200598 0 12 1.8833 1.8833 6 5220523 0 14 1.8833 1.8833 7 5226428 0 14 1.8833 1.8833 8 5235454 0 15 1.8833 1.8833 9 5236879 0 15 1.8833 1.8833 10 22 账单号费用日期 wrof 5212844 1 13 0.001 0.001 1 5207802 0.080472425 13 1.5854 1.5865 2 5116321 0.162746472 6 1.6244 1.6254 3 5249283 0.145631068 16 1.6495 1.643 4 5161627 0.146231608 9 1.6495 1.643 5 5046418 0.044139726 1 1.6508 1.651 6 5090976 0.044139726 4 1.6508 1.651 7 5185113 0.044139726 11 1.6508 1.651 8 5206569 0.044139726 13 1.6508 1.651 9 5213517 0.044139726 13 1.6508 1.651 10 105 账单号费用日期 rof wrof 5366278 1 26 0.9988 0.9988 1 5094481 0.889369263 4 44.948 44.948 2 5093114 0.674385549 4 115.2419 114.7397 3 5387078 0.726443589 28 115.2419 114.7397 4 5367476 0.532069885 26 180.5166 182.8336 5 5359560 0.565353864 25 191.1833 192.1669 6 5272480 0.517026947 18 195.5166 196.8336 7 5378587 0.517026947 27 195.5166 196.8336 8 5070705 0.800533017 3 197.2478 198.0754 9 106 账单号费用日期 rof wrof 5295057 0.699958079 20 0.6667 0.9996 1 5209713 0.899986026 13 100.6667 0.9996 2 5372698 1 26 100.6667 0.9996 3 5394309 0.397572878 28 338.2383 426.782 4 5321860 0.478974976 22 372.3373 447.6726 5 5186825 0.489406871 11 372.3373 447.6726 6 5084656 0.451887523 4 378.2464 466.7635 7 5232379 0.431797661 15 392.9266 480.4762 8 5

展开阅读全文