收藏 分销(赏)

医保欺诈行为的主动发现-数学建模论文.doc

上传人:胜**** 文档编号:2700838 上传时间:2024-06-04 格式:DOC 页数:47 大小:2.23MB
下载 相关 举报
医保欺诈行为的主动发现-数学建模论文.doc_第1页
第1页 / 共47页
医保欺诈行为的主动发现-数学建模论文.doc_第2页
第2页 / 共47页
医保欺诈行为的主动发现-数学建模论文.doc_第3页
第3页 / 共47页
医保欺诈行为的主动发现-数学建模论文.doc_第4页
第4页 / 共47页
医保欺诈行为的主动发现-数学建模论文.doc_第5页
第5页 / 共47页
点击查看更多>>
资源描述

1、2015 年深圳杯数学建模竞赛论文医保欺诈行为的主动发现参赛队员:姓名学号学院所在系联系电话戴鑫10131629信息学院自动化15356573010吴倚天10132376理学院数学与应用数学13764861265马先强10131048药学院制药工程187212918022015 年 5 月 30 日摘要中国医保体系覆盖面的不断扩大帮助了无数身患重病但无钱救治的家庭,但 随之而来的是某些不法分子利用医保服务的漏斗进行骗保的违法行为,这使得国 家医疗体系支出增多,医疗体系经济压力增大。要解决这一问题,防止医疗骗保, 医疗体系必须全面掌握病人的行为记录和背景信息。但是由于医疗体系面对的病 人信息太过

2、庞大,且变化十分迅速,不可能使用传统的方法逐一检查病人的行为 记录和背景信息,而必须使用高效和自动化的数据库挖掘工具,扫描病人行为, 找出那些高度可疑的潜在违规用户进行调查,及时制止这部分用户的违规行为, 防止危害的进一步扩大。数据挖掘是很好的处理大量数据,从中挖掘信息和知识的工具。对骗保行为 来说,这一违规行为的病人在整个病人数据库中所占比例较小,且这部分病人的 拿取药时间和开药金额等信息往往表现异常,与正常用户很不一样。就开药金额 单张处方费用问题来说,如果将整个病人数据库视为一个点集,这部分病人就可 以被视为“孤立点”。数据挖掘中的孤立点挖掘方法可以通过辨别孤立点和正常 点之间的差异性找

3、到他们。本论文采用基于分辨率的孤立点挖掘算法(RB 算法),建立了病人评估模型。 RB 算法最主要的优点是适用于海量的数据库,并且无需引入参数。但是 RB 算法 仅从数据集全局出发寻找孤立点,会导致孤立点的寻找过程中忽略了数据点所在 的类的密集程度对孤立点的影响。所以在 RB 算法的基础上提出了密集度加权的 分辨率孤立点挖掘算法(WRB 算法),WRB 算法计算每个孤立点相距最近的类的稠 密度测度作为分辨率的权重。从全局和局部出发,综合考虑数据点周围的点的个 数以及每个孤立点与距离本身最近的类的密集度对比来计算每个数据点的孤立 程度。就病人取药时间的问题,将病人的取药时间看作一个个点,将点的个

4、数以及 密集程度赋值,将一个病人的取药时间量化成一个值,使用一维格子分布密集度 算法对其密集度进行度量,从而排序,最后结合实际,进一步提出了混合密度算 法。最后我们将病人数据代入模型,通过 MATLAB,利用 RB 算法、WRB 算法以及 密集度算法得出可疑病人,RB 算法以及 WRB 算法的交集即为可能用高额处方骗 保的病人,而利用混合密度算法得出的孤立程度较大的点,即为可能存在骗保的 病人。最后我们给出了每个科室的孤立程度最大的前十名,供有关部门进行调查, 同时也给出总体前 10 名,在人力物力不足情况下,可优先调查。本文的创新点在于从孤立点挖掘的 RB 算法出发,考虑密集程度对孤立点的

5、影响,在 RB 算法的基础上引入权重参数,构造了 WRB 算法。同时在考虑费用的 基础上,考虑了拿药时间,从多角度验证嫌疑用户的欺诈行为。关键词:医疗骗保,数据挖掘,孤立点,孤立因子,密集度一、问题重述医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都有可能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。我 们已经拥有了病人资料、费用明细表、费用费表等核心的

6、一些数据,我们需要在这些数据中找到可疑的病人或处方。二、数据处理与分析2.1 数据预处理输入数据是孤立点挖掘的一个重要特征。模型的输入,一般是数据记录的整 合,每个数据实例可以用一组属性值(也称特征,变量,维度等)来描述。属性 值可以有不同的类型,如布尔型,连续型和离散型等。每个数据可以包含一个或 多个类型相同或不同的属性。属性的性质决定了孤立点挖掘技术的适用性。比如, 对于基于统计学的挖掘模型必须输入连续型或离散型额数据。本次的实验数据来自附件的 excel 中,由于数据存在着不完整,不规范,不匹配 等问题,为了提高数据挖掘的质量,去除会对结果产生影响的因子,需要对数据 进行预处理,数据预处

7、理的过程包括三个步骤: (1)数据清洗:对于数据缺失项,根据其余各表补充,若无法补充关键要素则 删除该数据。去除前后属性明显矛盾可能是由于记录错误而引起的数据项,如药 品单价与费用为负值。 (2)目标数据提取:第一题研究的单张处方药费特别高,而材料只给出了账单 中的一个个条目,通过对 30 万条记录的比对,我们发现一张处方对应一个账单 号,于是我们以同一账单号为条件,对数据进行条件加和,得到一个个对应一定 费用的账单。此外我们对于每个病人的取药次数与分布也进行了提取。 (3)数据规范化:由于附件中给出的费用数据范围太大,造成计算复杂度大大 提高,故将数据属性数据按比例缩放,使之落入一个小的特定

8、区间,本次实验采 取的是最小-最大规范化方法,即对原始数据进行线性变换。假定属性 A 的最小 最大值分别为 minA 和 maxA,那么规范后的 A 的属性值为Vv - minAmaxA - minA2.2 数据情况概述在建立模型之前我们希望通过观察数据的分部情况来决定采取什么算法去 估计哪些用户为可疑用户,以八号科室为例,如下图由上述数据点可以看出,点的分布在一定程度上出现在一些区间集聚的特 征,也就是如图所示的几个明显的条带,并且在最大点处,虽然寻找过大点的最 直接思路是找最大的点,但我们可以看到,在最大值附近,有三个点,呈现了一 定薄的层的特征,也就是说可能这虽然是个大的处方,但它可能也

9、是正常的,比 如是对一些严重疾病的处方,是正常处方,只不过概率比较小罢了。所以判断过 高点不能仅从价格来判断,应该结合他的分布,一个感冒药的处方过高时,会脱 离他的正常区间,在此过程中很可能停在一个不属于任何区间的“中间区域”, 这种处方虽然可能价格不高,但它也应属于“过高点”的概念。通过以上分析, 我们决定利用孤立点的概念,通过计算与点的孤立程度的方式来寻找这些不寻常 的过高点。并且考虑到科室皆有集聚现象,但集聚情况并不相同,又为了防止一 个科室的集聚遮住另一个科室的孤立点,我们采用了分科室讨论的方式。模型假设(1)不考虑科室中只有一个人得某种病,比如儿科中只有一个孩子得小儿麻痹 的数据,导

10、致此数据与儿科中其他数据明显不同,默认为每种病都有几个可用的 数据。(2)不考虑某病人分开多次配药,我们默认每个病人配药就配一次或者极少次。 即一个处方对应一个账单号。 (3)只考虑费用的总和,某种费用有问题视为总费用有问题 (4)不考虑由于特殊情况而出现的需要过多取药的情况四、符号说明1.对于过大问题名次含义符号相对价格x孤立因子ROF每一步的分辨率大小r1,r2,r3Smin 到Smax 之间所有分辨率变化次数R簇所包含的所有点的个数ClusterSize分辨率未变化钱r0分辨率变化次数t分辨率变化到当前步骤T2.对于取药过多问题设一个病人共有 n 次取药记录,且记录分别落入 m1,m2,

11、m3,m4.mj 的日子,由于本次数 据的日期只有 1 月 1 日到 1 月 31 日,以及 3 月 24 日,所以使其分别对应 1,2,3.31 以及83,因为 3 月 24 日数下来就是 83(31+28+24),于是 m1,m2,m3,m4.mj,落于1,2,3.31,83的区间,设各个日子有 gj 个记录,即有 gj 个点,把一个点记为 amjii ,即为该病人的第 i 个数据,且其落入 mji 日子,ji 表示这第 i 个点对应的日子序号。此外,在一维格子分布密集度算法下,定义 Mi 为第 i 个点的密集度分数,而 D 为所研 究的那一个病人的总体密集度分数而在本文的改进算法中,取

12、E 表示该病人的最终合成密度分数 ,R 表示日间系数,表 示病人数据在天与天之间分布的密集程度。而 k 表示单日最高次数占最终合成密度分数的比 例,而(1-k)表日间系数所占比例。五、模型建立1.对于过大问题RB 算法:基于分辨率的孤立点挖掘思想,当分辨率十分高时,所有的点都可以被视作孤立点,当分辨率十分低时,所有的店都属于同一个类,即不存在孤 立点。当分辨率增大的时候,相对更孤立的店就更容易被抛出。当分辨率逐步降 低时,孤立度不高的点会被抛进一个类里去。因此,当分辨率不断变化,数据集 中的每个点都会有一个累积的属性,可以用某个点的累积的类属性来度量这个点 对于离它最近的类的孤立程度。首先定义

13、邻近点的概念:在一个 k 维的数据空间 D 中,如果距离点 O 最近的 P 与点 O 之间的距离小于等于 1,那么 P 点就被定义是点 O 的邻近点,且 P 所有 的邻近点也是 O 的邻近点。这里阀值被设为 1,而实际上其倒数就为分辨率,事 实上这个阀值的初值的设定并不重要,因为当分辨率变化时,空间两点之间的距 离是一个相对值。分辨率算法可以找到一个分辨率值使得所有点相互之间的距离 大到没有一对能成为邻近点,也可以找到另外一个分辨率值使得所有点都是邻近 点。下面定义基于分辨率的孤立因子(ROF):当一数据集的分辨率在最大值和最 小值之间变化的时候,数据集中某个点的孤立因子为,分辨率变化时,前后

14、两个 包含这个点的簇的大小的比率的累积值,即:ROF(O) R ClusterSize(O,rl -1)-1l 1 ClusterSize(O, rl )WRB 算法:RB 算法虽然具有无参数,鲁棒性高,实时性,更新能力强等优点 , 但 是 有 两 个 缺 点 ( 1 ) 判 断 孤 立 点 的 依 据 测 度RClusterSize(O,rl -1)-1ROF(O),完全依赖聚类产生的类所包含的点的个ClusterSize(O, rl )l 1数。而没有考虑到不同的的类有不同的稠密性,在聚类的时候,也只是由全局设 定的分辨率以及两点之间的欧式距离来决定目标点是否应该被划入某个簇。在对 孤立点

15、按孤立程度排序时,往往因为忽略类的稠密度,和数据点周围的局部环境 使得孤立点的排序不正确,也就是说一个点在对一个较密集与较疏集欧式距离相 同的情况下,其相对于较密集的孤立程度应比相对于较疏集的孤立程度要大,所 以体现在算法上,其算法的等效距离要大。于是,在 RB 的基础上我们提出了WRB 算法给定一个数据集 D,在当前分辨率下设定每个类的初始稠密度=1 If(在当前的分辨率下,类没有融合进新的数据点)该类的密集度不变Else 类的稠密度=clustersize/M M=已经变化的分辨率值和倒数和当每个类如果融合进了新的点,类所在的范围必定也会变大。而当分辨率越来越当前分辨率变化数小,范围测度

16、M1就会越来越大,每个类融入的点越来越多,l 1rlclustersize稠密度值 Dc M 也会随之变化。1D t -T最后的稠密度权重值即为: Wi cMdWRB 聚类算法思路:在当前分辨率 r 和数据集 D:1.对于每个点 O,对于所有与点 O 间的距离小于等于阀值的点,找出每个维度正 负方向与点 O 最近的领近点。 2.选择没有被打标记的数据点,为其赋上类标记 C。为其设定一个初始临近点数 组 nChain,将 C 的类大小设置为 13.对该数据点的邻居点进行扫描,对于每个邻居点:如果该邻居点没有被打标记, 则将该邻居点放入数组 nChain,并打上类标记为 C,将 C 的类大小加 1

17、,如果该 邻居点已经被打上类标记为 C,则将类 C的类大小加到类 C 的类大小上,并 删除 C4.将指针移到 nChain 的下一个点,重复步骤 3 知道 nChain 中所有的点都被遍历过5.记录类 C 的大小6.重复步骤 2-5 直到所有的数据点都被打上类标记7.更新每个点的 ROF 值2.对于取药过多其实所谓的取药过多并一定是总量多,指的应是不正常的频率,依据一维格 子分布密集度算法,将一个点的密集度定义为i-1nMi 1(/| mji - mjk | +1)+ 1(/| mji - mjk | +1)k 1k i+1n而一个病人的密集度D = M k , 以下图为例k 1以上点分别得分

18、 3/2 , 3/2 , 1, 所以总得分 4。 给出 n=3 时的三个有代表 情况有D=4D=6D=8/3由此可见,一维格子的密集度算法,能较好的体现点在格子中分布的密集程 度。但有一个问题值得我们的思考,在日常的看病中,一天多次付费与连续多天 付费哪个更不正常。也就是说如图 3 的情况与如图 2 的情况哪个更不正常通过实际研究发现,在医院中出现一天多次付款是可能的,比如你去看医生, 医生让你先做个血检,于是你先交钱再血检,在医生看完你的报告后于是开药, 接下来你就需要再付一次钱,这样一来就出现了一天两次付费的情况。而另一种 每天付一次钱其实是少见的,比如现在的医院为了防止骗保,大多在医生开

19、处方 时不是一天一天开的,而是一下子开几天的药,就算是挂点滴,也是你在头一天 交完所有钱,然后拿票据,之后几天凭票拿药。所以连续几天付款的情况值得怀疑所以,我们即要关注单日特别多以及过密的情况,还要关注出现不合理连续 的情况,于是分别设置两个量,D 与 R,其中 D 表示按第一种方法计算而得的值, 表示过大与过密的情况, R 表示日间系数,表示病人数据在天与天之间分布的 密集程度。以以上两个量分别表示的R 仍然采用一维格子的密集度算法进行计算,所不同的是不再计同一日的分数例如D=4R=2而同样在 n=3 下,连续的分布的情况也成了 R 最大的一种情况。也就是说 D与 R 分别在两个极端情况下趋

20、向最大,于是引入 K,作为比例系数,综合考虑两 种情况,得到 E,最终合成密度分数E K * D + (1- K ) * R查阅相关文献可得 K=1/3。五、模型求解 (除 4 以外以下三项仅以第 8 科室为例,其他数据见附表)1.RB 算法:将 8 号科室的费用账单号和费用代入,计算孤立因子值,并取 孤立因子最小的前十个值作为可疑用户,如图如图所示,RB 算法即求出了一般意义上的过大点即值较大又比较稀疏的点, 符合主观判断与一般认知,另一方面也较为理想的找出了,落在集群之间的可疑 点较好的完成了目标。从图中可以知道,账单号为 5325501、5154447、5350391、5404671、5

21、082387、 5166412、5350169、5040638、5286466、5350085 对应的病人可能为可疑骗保人 员。2.WRB 算法:同样取第八科室数据,运行算法得到结果账单号 5154447,、5404671、5325501、550391、5082387、5166412、5350169、 5040638、5286466、5350085 对应的病人为可疑骗保人员两种算法得出的 8 号科室可疑病人前 8 位基本相同,仅在前,四位的排序上 发生了一些区别,可见 WRB 对点有进一步细分的作用,并且可以看到较大的点 被排进了前二,比 RB 更符合我们一般认为的点越大往往越容易被孤立的概念

22、。 而其实质上是因为权的不同导致的等效距离的不同。本次使用的 r 的一个循环增 加步长为 0.005,此时最左边两个最大点的集的密度为 1,而第二集团为 0.056, 所以由于比例原因,1 点与 2 点离第一集团变远了,事实上最终 1 点与 2 点也确 实是被第二集团给吞噬了,其距离等效图如下。3.对于取药过多的混合密度算法病人Max_numRE(混合密度)169534432.002.33251090612.652.10346584640.761.84453235112.101.73546534112.011.67657869021.501.67757262421.501.6785094252

23、1.501.67955679721.481.651042266021.421.62由数据来看病人 695344,510906,465846,532351 属于取药数较多的,应予以 调查。4.基于 WRB 给出所有数据中偏高最厉害的 20 个人先把各 wrof 除以自己科室的平均,再进行排序得账单号w-rof/自己科室平均52955810.000505981152128440.000610558254071490.000833378351351180.001376269451716630.001456812551716630.001456812652967120.0016877997504518

24、10.001709791851391580.0019727953726980.0020489721052097130.0020531811152950570.0020574071252201760.002141341352850310.0021459371452282410.0021976721551337100.0021976721651189230.0022406871752269940.0024905471852269940.0024905471951544470.00588391420这些账单是处方过大中嫌疑最大的账单,在医院及相关部门人力物力有限的 情况下,可只对这 20 个账单优先

25、予以追查。如人力物力足够可以,我们在附表中也提供了每科室 w-rof 的前 10 名,相 关部门可以此为参考,展开调查工作。七、灵敏度分析对 8 号科室数据,分别用 RB 算法以及 WRB 算法运算,初始步长 0.0005, 每次增加 0.0005,观察什么时候前十位的排名发生改变,发现 RB 的是在步长升 到 0.0085 处发生了改变,约为原来的 17 倍,可见 RB 算法具有较好的鲁棒性, 只要步长取得足够小,总能完成任务,而 WRB 算法直到 0.0095 才发生改变,说 明 WRB 算法明显具有更好的鲁棒性。八、推广及应用数据挖掘可以通过合理的预测和分析来帮助企业规避风险,近几年在用

26、户 风险评估决策中的应用引起了商业领域越来越多的关注。银行用户分类通过孤立 点算法数据挖掘将用户分到“好”的信用组即可能会按要求偿还银行贷款的用户 和“差”的信用组即可能不能按要求偿还银行贷款的用户组中去,银行可以根据 分类结果采取必要的措施以避免贷款拖欠的情况发生。在通讯行业,研究人员也可使用数据挖掘技术建立决策支持系统以预测不能缴清欠费的用户。所以孤立点 算法可以帮助不同的行业找到那些可能违规的用户,识别违规用户的过程就是找 出数据库中分布偏离的数据点。九、参考文献【1】孤立点数据挖掘技术研究及应用 【2】基于关联规则及孤立点的信息舞弊特征识别研究 【3】基于圆形领域孤立点挖掘算法的企业信

27、用风险失真度研究 【4】基于孤立点挖掘的信用卡产品用户风险研究【附表】各组 WROF 的前 10 名数据结果8账单号费用日期rofwrof51544470.934688395939.750.9997153255010.850064627220.999728.9925253503910.5848391922443.988671.9814354046710.9796740762972.416788.33314516641211092.4167107.33315535016912492.4167107.3331650823870.739843374489.6869121.048750406380.5

28、28499379195.9837126.9749852864660.5354183031995.9837126.9749953500850.77948146124104.6869134.548109账单号费用日期rofwrof53591251250.83330.8333152382790.2435705371578.577.5252713810.2435705371878.577.5352087760.92197253413125.6333124.0333452579180.92197253417125.6333124.0333552702090.92197253418125.6333124.

29、0333653911740.92197253428125.6333124.0333753913800.92197253428125.6333124.0333852717430.02746566818132.3426130.639950593230.0212234712138.3426136.6391010账单号费用日期rofwrof52643340.171561195170.98180.9818154085990.1018189393021.562523.4375252839690.0811536221941.526141.5565354097430.07504661315050.909145

30、2302380.0943189491554.30353.3333552135340.0823130211355.363655.3636652433930.0712159241665.009562.7175752746650.0712329121866.904265.2172851106020.05090734666866952388850.0811536221573.292570.41951011账单号费用日期rofwrof52967121200.98310.9831151145030.6848731136400.9658400.9658251349360.5733237727523.2442

31、412.7553353677940.52420222326531.0624530.6527452699770.2227401318564.6624543.1553553256080.03203059622553.1005554.1339653191240.30229871322564.3124562.1527753947460.32711844128566.979564.1527852696110.24775905318593.1624570.1553952967110.24775905320593.1624570.15531012账单号费用日期rofwrof52955811200.00090

32、.000915052706021.88331.883325102141051.88331.883335162726091.88331.8833451955850121.88331.8833552005980121.88331.8833652205230141.88331.8833752264280141.88331.8833852354540151.88331.8833952368790151.88331.88331022账单号费用日期wrof52128441130.0010.001152078020.080472425131.58541.5865251163210.16274647261.6

33、2441.6254352492830.145631068161.64951.643451616270.14623160891.64951.643550464180.04413972611.65081.651650909760.04413972641.65081.651751851130.044139726111.65081.651852065690.044139726131.65081.651952135170.044139726131.65081.65110105账单号费用日期rofwrof53662781260.99880.9988150944810.889369263444.94844.

34、948250931140.6743855494115.2419114.7397353870780.72644358928115.2419114.7397453674760.53206988526180.5166182.8336553595600.56535386425191.1833192.1669652724800.51702694718195.5166196.8336753785870.51702694727195.5166196.8336850707050.8005330173197.2478198.07549106账单号费用日期rofwrof52950570.699958079200.66670.9996152097130.89998602613100.66670.999625372698126100.66670.9996353943090.39757287828338.2383426.782453218600.47897497622372.3373447.6726551868250.48940687111372.3373447.6726650846560.4518875234378.2464466.7635752323790.43179766115392.9266480.476285

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服