HIS系统财务数据库异常检测技术及应用.pdf

资源描述

1、Microcomputer Applications Vol.39,No.8,2023文章编号：10 0 7-7 57 X(2023)08-0013-03摘要：当前，医院信息系统（HIS)已成为医院信息化建设的重要内容，但HIS与财务数据库的接入仍然采用传统的方式，导致财务重要数据存在一定的安全隐患。为了有效消除用户异常行为对医院财务数据库所构成的安全隐患，设计一种财务数据库异常检测技术。通过调取财务数据库运行日志中的用户查询内容及相应结果，采用k-means聚类算法进行用户分组，采用NavieBayes算法构建异常检测模型。应用测试结果表明，与传统的用户行为轮廊算法相比，所提出的算法准确率提

2、高了7.06个百分点，综合F1值提高了3.33个百分点，此外，在大幅度缩减计算量的基础上模型训练时间缩短了8 1%，极大地提高了财务数据的安全性。关键词：财务数据库；异常检测；NavieBayes算法；HIS；安全隐惠中图分类号：TP393.08(1.The Nuclear Industry General Hospital(The Second Affiliated Hospital of Soochow University),Suzhou 215000,China;2.The Suzhou Branch of Shanghai Pudong Development Bank,Suzhou

3、 215028,China)Abstract:Currently,hospital information system(HIS)has become an important part of hospital information construction.However,the access between HIS and financial database still adopts the traditional way,resulting in certain security risks.Inorder to effectively eliminate the security

4、risks posed by abnormal user behavior to hospital financial database,an anomaly de-tection technology is proposed and designed.By retrieving the user query contents and corresponding results in the operation ofthe financial database,the k-means clustering algorithm is used to group users,and Navie B

5、ayes algorithm is used to build an a-nomaly detection model.The application test results show that compared with the traditional user behavior contour algorithm,the accuracy of the proposed algorithm is improved by 7.06%,and the comprehensive Fi value is improved by 3.33%.In addi-tion,on the basis o

6、f greatly reducing the amount of calculation,the model training time is shortened by 81%,which greatlyimproves the security of financial data.Key words:financial database;anomaly detection;Navie Bayes algorithm;hospital information system(HIS);security risk0引言近年来，随着互联网用户的急剧增加，各种网络入侵事件层出不穷，入侵检测系统的研发随

7、之加快。异常检测作为人侵检测的一种技术已经成为相关研究的热点项目1。HIS系统中财务数据库安全关系到医院重要数据的安全，因此，针对财务数据库安全问题提出了一种数据库异常检测技术，通过以用户查询方式结构替代用户轮廓进行特征提取的方式对现有算法进行了优化，大幅度精简了计算量。采用k-means聚类算法进行用户分类，有效提高了算法的检测精度。基金项目：江苏省卫生计生财务研究课题（CW201710）作者简介：李晨（198 9一），女，硕士，研究方向为财务管理、会计；孙亮（198 0 一），男，本科，研究方向为医院管理信息化应用；邹元（198 5一），男，本科，研究方向为金融、财务分析。通信作者：张丽湘

8、（197 1一），女，本科，副总会计师，研究方向为财务管理。.13.基金项目HIS系统财务数据库异常检测技术及应用李晨，孙亮，邹元，张丽湘1*（1核工业总医院（苏州大学附属第二医院），江苏，苏州2 150 0 0；2.上海浦东发展银行苏州分行，江苏，苏州2 150 2 8）文献标志码：AAnomaly Detection Technology and Applicationof Financial Database in HIS SystemLI Chen,SUN Liang,ZOU Yuan?,ZHANG Lixiangl*1.1k-means 聚类算法假设存在一个包括n个对象的数据集D，通

9、过一定的方法将这些对象划分到k个不同的簇Ci，C 2，C 中，且在1i,jk时,有C,CD,C.nC,=g2。分类效果通过一个目标函数进行判断，使同一个簇内的所有对象具有高度相似性，同时又与其他簇内的对象具有明显的差异 3。基于簇的中心点形心的分类方法，以簇的形心c；对其所在的簇进行描述。数据集中的对象pEC，与形心ci之间的差异采用欧氏距离distd(p，c,)来表示。所使用的目标函数为mind(Y,c,)i=1,2,.,k微型电脑应用2 0 2 3年第39 卷第8 期1算法设计(1)Microcomputer Applications Vol.39,No.8,2023其中,Y代表数据集中的

10、对象，C代表簇C的形心。kmeans算法流程4如下：建立k个初始簇，从数据集D中随机选取k个对象作为每个初始簇的形心；计算簇内所有对象的均值并将每个对象都分配到与其相似性最高的簇中；重新计算各个新簇中所有对象的均值，直到所选取的目标函数开始收敛。k-means算法的不足之处是聚类的结果取决于初始化过程中聚类中心初始值的选取是否恰当。1.2NaiveBayes算法假设模型输入空间二R是一个n维向量的集合，输出空间是一个类的标记集合=（c 1，C2，C）。特征向量E作为模型的输入,对应的输出为类标记yE5。X、Y分别为输入空间和输出空间中的随机向量，2 个随机向量的联合概率分布为P(X,Y)。由P

11、(X,Y)以独立同分布的方式生成训练数据集T=（a i,y i），（a 2,y 2），（n，y）)。Na-iveBayes算法在训练数据集的过程中对P（X,Y）进行机器学习，目标是获取先验概率和条件概率两种分布 6 。其中，先验概率分布的表达式为P(Y=c)i=1,2,k条件概率分布的表达式 7 为P(X=|Y=c,)=P(X(),.,X()=(Y=c)i-1,2,.,k通过式（3)学习到联合概率分布P（X,Y）。在NaiveBayes算法中，对条件概率分布做出了以下独立性假设：P(X=|=c)=IIP(XC)=()|Y=c)（4)Naive Bayes算法流程 7 将作为模型的输人，利用经过

12、学习的模型可计算得到后验概率分布P(Y=cIX=）,拥有最大值的那个类即可认定为所属的类。依据贝叶斯定理可进行后验概率的计算：P(X=/Y=c;)P(Y=c;)P(Y=Ci I X=)=P(X=/Y=c,)P(Y=c,)i=1,2,k式（4)与式（5）相结合可得：P(Y=ci I X=)=P(Y=c.)II P(X)=2()Y=c.)P(Y=c)IIP(X)=2)/=c.)1式（6)即为Naive Bayes分类（NBC)的基本公式，由此可得到NaiveBayes分类器的表达式，如式（7）：y=f()=arg maxP(Y=c;I X=)=P(Y=c.)IIP(XO)=2)IY=c.)ZP(Y

13、=c)II P(X0)=2)|Y=ci)j=1通过k-means算法对用户行为轮廓进行聚类，得到用户组别。使用Naive Bayes分类算法对训练数据进行训练，最后得到实验所需的异常检测模型。基金项目2异常检测系统设计2.1系统架构财务数据库异常检测系统的总体架构如图1所示。该系统的工作流程中包含训练和测试两个阶段。系统训练包含以下几个环节 7：对数据库日志中的记录数据进行预处理，筛选出所有的用户查询数据；对查询数据提取特征，获取描述用户行为轮廓的特征向量；采用k-means算法将用户行为轮廓划分为不同的类别，创建用户组；采用NaiveBayes算法进行训练，构建异常检测模型。系统测试包含以下

14、几个环节 8 ：对用户的查询请求相关数据进行预处理；通过特征提取获得查询数据的特征向量；以特征向量为输人利用模型完成异常检测；在响应器中按照既定的策略对检测结果作出响应。查询结果SQL语包用户财务数据库响应行为SQL语句+结果特征提取向量V检测结果(2)异常检测一用户行为轮廊图1异常检测系统总体架构2.2数据表示(3)用户的查询数据采用向量V(C,T,A,R)表示。C代表用户输入内容的请求类型；T代表查询历史的表格，标记为0N,如果数据库中现有的交叉查询内容较少，为了不过多占用向量存储空间，将多个交叉查询表的属性整合为多个对j=1应的新表，由N+1开始对其进行标记；A代表查询内容的属性信息，通

15、常以数组的形式表示，其长度取各查询表长度的最大值，在查询内容与某个表的属性相匹配的情况下，将这个属性标记为1，反之则标记为0；R代表得到的查询结果在查询表中所占的比例，即查询结果的行数与查询表总行数的比值。V向量的具体表示方法如图2 的第三列向量值所示。第一列表示具体的查询内容，第二列表示Q向量，其中(5)包含了输人内容请求类型（C)、查询表向量（P,）、查询表属性(P。）以及查询信息占比（S,）等4个属性。当以V向量来表示交叉较少的查询内容时，其所占用的存储空间仅相当于Q向量的一半，由此大幅度缩减了异常检测模型训练所需的-i=1,2,k时间。SELECT*(6)FROM clientsWHE

16、REc_ID=3;SELECT*FROM products0,0,0,0,1,1,0,0,WHERE price5图2 查询数据表示向量(7)3系统应用测试3.1数据集及评价指标本次系统测试从TPC-C数据库选取一定数量的数据创建实验数据集。TPC-C是一个能够评价大型数据库系统性能的机构。按照本文技术开发的目的，从TPC-C数据库中14.微型电脑应用2 0 2 3年第39 卷第8 期响应器上queryQ(C,Pr,Pa,Sr)(SELECT,1,0,0,0,1,0,0,0,0,0,s,null(SELECT,O,1,.null,m)响应策略审计日志V(C,T,A,R)(SELECT,0,0,

17、0,1,0,0.25)(SELECT,1,1,1,0,0,0.5)Microcomputer Applications Vol.39,No.8,2023查询医院HIS系统中关于财务的相关数据，包括处方单价格、款项支付、药品支付、库存状态和订单状态等5种数据，作为样本数据创建异常检测试验数据集。为了明确描述测试结果，采用以下指标来评价系统性能。（1）精确率（precision），用以说明系统分类器所选出的正常样本中属于实际正常样本所占的比例，其表达式为P=(TP)/(TP+FP)式中，TP为实际正常样本被识别为正常样本的数量,FP为异常样本被识别为正常样本的数量。（2）召回率（recall），用

18、以说明被系统正确识别为正常的样本占正常样本总数的比例，其表达式为R=(TP)/(TP+FN)式中，FN为实际正常样本被识别为异常样本的数量。（3）综合F1值，系统精确率与召回率的综合加权平均，其表达式为Fi=(2PR)/(P+R)3.2数据预处理测试所用操作系统为Linux，安装TPCC-MySQL工具用于TPC-C数据库的构建，创建查询表，具体内容为某大型医院的日常业务。从MySQL的财务数据库日志中提取出91121条操作记录数据，将与财务无关的数据剔除后共得到86924条用户查询数据。采用本文的数据表示方法将这些查询数据转换为V向量，作为特征向量来描述用户的行为轮廓。3.3结果与分析采用k

19、-means算法对转换得到的用户行为特征向量进行聚类以创建不同的用户组。在TPC-C数据库模拟的场景中，k取值为2，具体是指数据库中客户与工作人员2 个组。考虑k-means算法分类效果依赖初始簇中心取值的特性，需要在多次取值的基础上进行实验，具体实验结果如图3所示。在随机种子数不同的条件下，初始类簇的中心点定位在不同的位置，最后也会获得不同的聚类结果。由图3中的数据可计算得到所有对象的平方误差和最小值为10 8 8 49，因此可使用这个模型进行用户分组。在采用k-means算法完成用户分组后，可利用已得到的组采用NaiveBayes算法对系统分类器进行训练。18(01*)唑161412105

20、50150250350450550650750850950图3不同初始中心点所对应的分类结果将本文提出的系统与仅采用Naive Bayes算法的异常检测系统(NBC系统9)作性能对比，具体结果如图4所示。由图4可见，本文系统的精确率相对高出7.0 6 个百分点，召回率则相对降低了0.7 2 个百分点，差距并不明显，同时综合F值高出参照系统3.33个百分点。本文系统精确率较高的原因在于采用k-means算法使用户分组与用户行为特征更加匹配，很大程度上增强了异常用户行为的识别能力，召回率相对较低是因为出于缩减训练时间的考虑精简了特征向量，但对正常用户行为的分辨能力产生了影响。作为上述2 个指基金项

21、目标的综合加权平均，F值获得了提高，说明在对海量数据的处理能力方面，本文系统的异常检测能力更强，鲁棒性更高。100精确率口召回率98FF值96%/率94(8)929088图4不同系统性能对比(9)4总结为了解决医院财务数据库面临的日益加剧的非法人侵问题，本文提出了一种财务数据库异常检测技术。以医院(10)HIS系统财务数据库日志中的用户查询数据为基础，分别采用k-means算法与NaiveBayes算法进行用户分组与分类器训练，进而对异常的用户行为进行检测。通过系统测试结果可见，相对于已有的检测系统，本文提出的系统精确率提高了7.0 6 个百分点，F1值提高了3.33个百分点，系统性能更好，鲁

22、棒性更高。目前，该技术已通过测试，在苏州大学附属第二医院进行试运行，运行过程中系统稳定，对财务数据库异常检测达到6 52 1次，有效拦截率为10 0%。1J R A BBA NI M,W A NG Y L,K H O SH K A NG I NI R,e tal.A Review on Machine Learning Approaches forNetwork Malicious Behavior Detection in EmergingTechnologiesJJ.Entropy,2021,23(5):529.2 THAPA K K,DURAIPANDIAN N.MaliciousTra

23、ffic Classification Using Long Short-Term Memo-ry(LSTM)ModelJJ.Wireless Personal Communi-cations,2021,119(3):1-18.3 AIBAA,YOSHIDA M,KITAMURA D,et al.Noise Robust Acoustic Anomaly Detection Systemwith Nonnegative Matrix Factorization Based on Gen-eralized Gaussian Distribution:Regular SectionJ.IEICE

24、Transactions on Information and Systems,2021,E104.D(3):441-449.4王桂华.SQLServer数据库入侵检测系统的研究 J.电脑编程技巧与维护，2 0 17（2 3）：42-43.5莫徽忠.基于数据流聚类算法的网络异常检测系统设随机种子数计 J.柳州职业技术学院学报，2 0 17,17（3)：99-10 3.6 王均.基于Netflow的局域网流量异常检测系统的设计与实现 J.信息与电脑，2 0 16（2 1）：18 6-18 8.7王超.SNMP数据异常检测系统设计与开发 JI.计算机与网络，2 0 15（18）：46-47.8丁洁，王磊，沈荻帆，等。一种大数据异常检测系统的研究与实现 J.海南大学学报（自然科学版），2 0 15，33(1):24-27.9 杨寒冰，王春玲.基于贝叶斯网络的智能舆情分析监控技术研究 J.电子设计工程，2 0 2 1，2 9（10）：7 3-7 6.（收稿日期：2 0 2 1-12-30）15微型电脑应用2 0 2 3年第39 卷第8 期本文系统NBC系统参考文献

展开阅读全文