收藏 分销(赏)

基于信息熵的异常数据判别方法.pdf

上传人:自信****多点 文档编号:2324836 上传时间:2024-05-28 格式:PDF 页数:6 大小:1.49MB
下载 相关 举报
基于信息熵的异常数据判别方法.pdf_第1页
第1页 / 共6页
基于信息熵的异常数据判别方法.pdf_第2页
第2页 / 共6页
基于信息熵的异常数据判别方法.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、科学技术创新 2023.24基于信息熵的异常数据判别方法杨亚琦1,李博雄2,3,杨东霞1,刘燕4(1.云南省市场监督管理局信息中心,云南 昆明;2.昆明学院 信息工程学院,云南 昆明;3.云南省高校数据治理与智能决策重点实验室,云南 昆明;4.云南省信息技术发展中心,云南 昆明)引言近年来,我国已将“数字经济”列入国家发展战略,党的十九届四中全会首次将“数据”列为生产要素,充分凸显了数据在经济活动和社会活动中的巨大价值。数字经济时代,在海量数据中进行数据挖掘尤为重要。异常数据检测判别能提升数据的质量,有助于挖掘出数据的潜在价值,成为数据治理领域一项重要工作。在众多数据判别模型4中,逻辑回归模型

2、以泛化能力强、算法简单高效而得到了广泛应用。祝政等1以逻辑回归模型对奶牛行为进行研究,其奶牛行为姿态判别的准确率较高。张黎等2以二元逻辑回归模型对我国农业上市公司财务危机进行研究,对公司财务危机的总体预测正确率近九成。刘成圆3以逻辑回归模型对专利质量评估体系构建进行建模,其全领域和化学领域获奖预测准确率较低。在传统逻辑回归模型中,因为结构简单,很难拟合复杂数据的真实分布。且很难处理数据不平衡的问题,如果正负样本的比例差距较大,模型区分能力不会很好。在韦婷婷4等对中文专利关键词抽取研究中,利用LSTM 神经网络(LSTM 神经网络是循环神经网络的一种变体)改进逻辑回归模型,准确率有所提升,但模型

3、泛化能力较弱,不适用于其他类型的判别。因此,一种泛化能力强且准确率高的异常数据判别模型有很大的研究价值。1948 年,香农提出了“信息熵”的概念。但熵这一概念并不是香农首先提出的,最早提出熵这一概念的是物理学家克劳修斯,他提出一种热力学系统的状态函数,将其称之为热熵,也称作熵。香农在研究所得的式子在数学层面上与热熵完全相同,所以香农也将其称之为熵,一般称为信息熵或香农熵。一条信息所含有的信息量的多少和它的不确定性有紧密联系,可以理解为,信息量的度量等于不确定性的多少也等于信息熵。变量的不确定性越大,熵也就越大。对于任意一个随机变量 x,x 事件发生概率为 P(x),它的熵 H(X)定义如公式(

4、1)所示。(1)信息熵实践应用于多个学科领域,其应用范围非常广泛。起初,科学家试图用信息熵概念来解决心理学、生理学等学科许多未能解决的问题。自信息熵提出后二十年,信息论推广到生物学和神经生物学。随着计算机逐渐发展,通讯能力极大提高,信息熵的概念得到了学者的极大重视。施鲁蒂萨斯瓦特(Sarswat Shruti)9香农熵对 e-C60 散射的共振状态进行了标杆化。计算了 e-C60 散射的共振波函数、总截摘要:信息熵是度量不确定信息的重要工具之一,已有的异常数据判别方法主要针对确定性的异常数据,采用信息熵度量不确定性数据进行异常数据判别的研究报道较少,为此,本文提出了基于信息熵的异常数据判别方法

5、,在传统的基于逻辑回归的异常数据判别算法基础上加入香农公式计算信息熵,利用信息熵寻找出最优切割值对应的最高准确率,并以 CIC-IDS2017 数据集中的 DDos 攻击数据为实验数据,将该改进算法与原逻辑回归异常数据判别方法进行对比,通过实验得出改进后的判别算法准确率得到了提升,实验结果表明,所提出算法是有效可行的,为后续异常数据判别方法提供了一种新的研究思路。关键词:逻辑回归;香农公式;信息熵;异常数据判别中图分类号院TP181文献标识码院A文章编号院2096-4390渊2023冤24-0194-06作者简介:杨亚琦(1978-),男,本科,高级工程师,主要研究领域:信息化顶层设计、电子政

6、务、项目规划管理建设等。194-2023.24 科学技术创新面、部分截面和散射相移,以考察共振引起的局域特性。在“数据治理”中,也可利用信息熵10的思想,一条信息的信息量与它的不确定性有直接关系,如果要搞清楚该数据,需要了解的信息越多,其信息熵就越大。所以,利用信息熵思想来判别数据是否是异常数据是一项很重要的工作。针对以上研究现状,本文设计了一种泛化能力强,适用于大部分领域的判别模型,并通过实验验证了该判别方法的有效性。1传统逻辑回归判别模型本文提出的异常数据判别算法,主要使用逻辑算法模型将数据转化为概率值在0,1的概率问题后选择切割阈值对概率值进行切割,切割值大于概率值则判别为正常数据,切割

7、值小于概率值则判别为异常数据,从而判别数据是否正常。寻找判别准确率最高的切割值作为最优切割值并用于对测试集进行测试,测试所得的准确率即为该异常数据判别方法13的准确率。基于逻辑回归的异常数据判别算法,其特征在于把需要判别的数据对象定义为 N,N=(N1,N2,Nm),把与数据集 N 同类型且已知是非为异常的数据对象定义为 X,X=(X1,X2,Xn)。n、m 为数据集包含的元素个数,Xi为数据集 X 中的第 i 个元素,Yj为数据集 Y中第 j 个元素。假设对于数据 Xi,因变量 Ai的输出值为 1,即数据 Xi为异常数据;同理数据 Xi的因变量的输出值为0,即数据 Xi为正常数据;解释变量为

8、 Xi,Ai与 Xi之间的关系由概率 P(Ai=1)来解释。因此概率 P(Ai=1)定义如公式(2)所示:(2)其中 ai是 Xi的线性模型的估计值,是随机变量误差值。通过转换公式(2),可以得到公式(3)(3)其中,(0,1);使用逻辑回归转换,可以得到逻辑回归模型,如公式(4)所示:(4)因此,因变量 Ai可以表示为公式(5):(5)其中,p 为切割值,在取值范围 0,1,以步长为0.001 取 1000 个切割值。将不同切割值 p 下因变量 Ai与该条数据是否正常进行对比,使用逻辑回归判别为正常数据且真实数据也为正常数据则判别正确,同理判别为异常数据且真实数据也为异常数据则判别正确,其余

9、判别结果与真实数据对比则为判别错误。统计不同切割值 p 下判别的准确率,选择最优切割值时对应的最优判别准确率作为逻辑回归模型判别算法的准确率。2基于信息熵改进的判别方法由上述基于逻辑回归的异常数据判别算法7可以算出逻辑回归模型判别算法的准确率,至此本文提出一种基于信息熵的异常数据判别算法改进。依然假设对于数据 Xi,因变量 Bi的输出值为 1,即数据 Xi为异常数据;同理数据 Xi的因变量的输出值为 0,即数据Xi为正常数据;解释变量为 Xi,Bi与 Xi之间的关系由P(Bi=1)来解释。因此概率 P(Bi=1)定义如公式(6):(6)其中 ai是 Xi的线性模型的估计值,是随机变量误差值。通

10、过转换公式(6),可以得到(7)其中,使用逻辑回归转换,可以得到逻辑回归模型,如195-科学技术创新 2023.24公式(8)所示:(8)通过公式(8)可将数据的子特征转化为一个取值范围在0.1的概率,即可求得 P(Bi=1),利用香农公式(公式(9),计算数据 Xi通过逻辑回归模型所求概率的信息熵。(9)至此用一个取值范围为0,1步长为 0.001 的切割值 p 来切割信息熵 P(Bi=1)。当切割值 p 大于信息熵P(Bi=1),则判别为正常数据,反之则判别为异常数据。用公式(10)表示。(10)将不同切割值 p 下因变量 Bi与该条数据是否正常进行对比,使用基于信息熵的异常数据判别算法判

11、别为正常数据且真实数据也为正常数据则判别正确,同理判别为异常数据且真实数据也为异常数据则判别正确,其余判别结果与真实数据对比则为判别错误。计算切割值 p 下判别的准确率,确定判别准确率作为基于信息熵的异常数据判别算法的准确率。由此可统计出基于逻辑回归的异常数据判别算法的准确率和基于信息熵的异常数据判别算法的准确率。3判别算法对于已经知道数据结果的作为训练集 X,与训练集 X 同类型但不知道数据结果的数据作为测试集 Y。训练集和测试集中以0,1作为因变量,0 代表正常数据,1 代表异常数据。当数据的信息熵大于切割值时判别为正常数据,小于切割值时判别为异常数据。算法一:基于信息熵的判别算法输入:训

12、练集 X、测试集 Y输出:测试集 Y 的判别结果步骤一:选取训练集 X 中的子特征计算逻辑回归概率。步骤二:选取最优切割值来切割数据集中逻辑回归概率。步骤三:利用香农公式计算逻辑回归概率的信息熵。步骤四:利用经过香农公式计算信息熵后的最优切割值对测试集 Y 进行判别。步骤五:输出测试集 Y 的判别结果。以训练集 X 和测试集 Y 作为输入,输出测试集 Y的判别结果。定义逻辑回归公式和香农定理公式,对每一个数据计算其逻辑回归概率再计算信息熵。再次对计算结果进行读入,使用切割值进行切割,当一条数据的信息熵大于切割值时即可判别为正常数据,小于切割值时判别为异常数据。寻找一个判别准确率最高的切割值为最

13、优切割值,并将最优切割值切割结果作为测试集 Y 的判别结果。假设训练集 X 中的数据条数为 n,测试集 Y 中的数据条数为 m。每次循环都需要进行全部读取,因此算法中时间复杂度为 O(n2),空间复杂度为 O(n伊m)。算法实现了在训练集中寻找最优切割值并用最优切割值对测试集 Y 进行判别。4实验本文以 CIC-IDS2017 数据集中 DDoS 攻击数据为例8。CIC-IDS2017 数据集中的 DDos 攻击数据一个有 225745 条数据(其中,Lable 为 BENIGN 的数据为97718 条,标记为“0”,Label 为 DDos 的数据为 128027条,标记为“1”),选择一半

14、数据集作为训练数据集 N寻找最优切割值,并选取另一半数据集作为测试数据集 M 并判别算法的准确率。针对测试数据集 N,选取 Bwd 包长度标准(BwdPacket Length Std)、平均包大小(Average PacketSize)、流持续时间(Flow Duration)和流量标准(FlowIAT Std)这 4 个特征行为作为解释变量,以 Label 列数据作为因变量,对这 5 列数据进行回归分析,得出回 归 系 数:琢1=-7.86529E-09,琢2=0.000171636,琢3=3.11E-08,琢4=-2.31371E-05,着=0.365008007。然后,利用逻辑回归模型

15、,把以上数据带入公式(2),可以计算出 P(Ai=1)的值,接着,切割值 pi在0,1之间由小到大取值,取步长为 0.01,带入公式(5),计算出每个切割值 p所对应的准确率。准确率与切割值的关系如图 1 所示。由图 1 可以看出,当取切割值 p=0.6 时得出最优准确率 85.62%。利用香农公式求信息熵改进后逻辑回归模型求196-2023.24 科学技术创新图 2基于信息熵的异常数据判别方法各切割值的准确率出测试数据集里每条数据的信息熵 P(Bi=1),接着,将基于逻辑回归异常数据判别算法的最优切割值带入香农公式计算后所得的信息熵作为切割值 p,带入公式(7),计算出切割值 p 的信息熵为

16、 0.447。将切割值的信息熵 0.447 作为切割值用于切割每条数据的信息熵P(Bi=1),统计加入信息熵后的判别准确率为 86.68%。为了验证 0.447 作为切割值切割各个数据的信息熵 P(Bi=1)后的准确率是否为最优准确率,将准确率与各个切割值的关系如图 2 所示。由图 2 可以看出当切割值为 0.447 时取基于信息熵的异常数据判别算法的最优准确率 86.68%。将对于CIC-IDS2017 数据集的各个测试模型进行对比(见表1)。此时可以本作品提出的异常数据改进方法比传统逻辑回归模型的准确率提高了 1.02%,证明了本作品的改进方法准确率比单纯的逻辑回归模型得到了提高。本文同样

17、对比了在同一数据集中其他算法模型的准确率,对比结果中仅有 BI-LSTM-GMM 模型对CIC-IDS2017 中 DDoS 数据集比本文设计的判别算法图 1基于逻辑回归的异常数据判别方法各切割值的准确率197-科学技术创新 2023.24模型 准确率 逻辑回归判别模型 85.62%基于信息熵的判别模型基于信息熵的判别模型 86.68%双向长短时记忆16 86.8%基于深层结构能量的模型17 79.75%孤立森林改进算法18 81.42%深度自动编码高斯混合模型19 80.60%深度自编码器20 79.90%准确率高 0.12%。但 BI-LSTM-GMM 的模型复杂度为O(nm+n2+n)其

18、中 n 为 hidden_size,m 为 input_size。而本文设计方法的模型复杂度为 O(f+1)其中 f 为特征数量。在模型复杂度上基于信息熵的判别方法明显优于BI-LSTM-GMM,同时从判别准确率上看效果相差不大。整体上本文设计的基于信息熵的判别方法较优。5结论本文提出一种基于信息熵的异常数据判别方法,采用香农公式计算信息熵,综合提供了逻辑回归模型的异常数据判别方法的准确率。在以 CIC-IDS2017 数据集中 DDoS 攻击数据为测试案例中,选取 BwdPacket Length Std、Average Packet Size、Flow Duration和 Flow IAT

19、 Std 这 4 个特征行为作为解释变量,以Label 列数据作为因变量。使用基于逻辑回归的异常数据判别方法在切割值为 0.6 时取最优准确率,其值为 85.62%,使用基于信息熵的异常数据判别方法在切割值为0.447 时取最优准确率,其值为 86.68%。由此可以证明本文提出改进的异常数据判别方法准确率较原逻辑回归异常数据判别方法得到了提升。本文的研究对异常数据判别方法提出了合理的改进,为“数据治理”工作打下了更加深厚的基础。当然本文提出的改进算法仅使用了 CIC-IDS2017 数据集中 DDoS 攻击数据作为测试案例,后续研究将更关注于在逻辑回归模型中加入香农公式求信息熵这一方法提高判别

20、准确率的数学原理,并加大对其他数据集测试效果的研究。参考文献1祝政.基于多特征融合的奶牛行为判别方法研究D.重庆:重庆邮电大学,2020:42.2张黎.我国农业上市公司财务危机预警模型研究D.成都:四川农业大学,2008:293刘成圆.专利质量评估体系构建与实证分析D.电子科技大学,2020:40.4韦婷婷,江涛,郑舒玲,等.融合 LSTM 与逻辑回归的中文专利关键词抽取J.数据分析与知识发现,2022,6(Z1):308-317.5夏源,赵蕴龙,范其林.基于信息熵更新权重的数据流集成分类算法J.计算机科学,2022,49(3):92-98.6彭旭,饶元,乔焰.基于宽度卷积神经网络的异常农情数

21、据检测方法J.华南农业大学学报,2022,43(2):113-121.7金昌铉,朱宇龙,马博,刘森,黎晚晴,陈玲娜.基于数据挖掘判别用电类别异常的分析与研究J.科技与创新,2020(10):14-17,19.8李贝贝,彭力,戴菲菲.结合马氏距离和自编码器的网络流量异常检测 J/OL.计算机工程:1-16 2022-05-03.9LiangChaoetal.Abnormaldatadetectionofguidance angle based on SMP-SVDD for seekerJ.Scientific Reports,2022,12(1):1509-1509.10Wang Ke.Cha

22、racteristics of urban groundwaterpollutionbasedonabnormaldataprocessingandoptimizationofsportshealthmarketJ.ArabianJournal of Geosciences,2021,14(17):1688.11李晓灿,谢鲲,张大方,谢高岗.基于低秩分解的网络异常检测综述J/OL.计算机研究与发展:1-292022-05-03.12程传旭,李川.基于数据挖掘的网络异常数据快速采集系统J.自动化与仪器仪表,2022(2):81-85.13Huajie Zhang and Sen Zhang an

23、d Marlia MohdHanafiah.Localization and recognition algorithm forfuzzy anomaly data in big data networks J.OpenPhysics,2018,16(1):1076-1084.14阚志豪,牟子豪,吴杰权.数据驱动的异常检测与预警问题J.科学技术创新,2021(25):27-28.15胡雪梅,谢英,蒋慧凤.基于惩罚逻辑回归的乳腺癌预测J.数据采集与处理,2021,36(6):1237-1249.16Sarswat Shruti and R Aiswarya and Jose Jobin.Shan

24、non entropy of resonant scattered state in the e-C60 elastic collisionJ.Journal of Physics B:Atomic,表 1对于 CIC-IDS2017 数据集的测试模型评价198-2023.24 科学技术创新Molecular and Optical Physics,2022,55(5):055003.17Zhai,S.;Cheng,Y.;Lu,W.;Zhang,Z.Deepstructured energy based models for anomaly detection.InProceedingsoft

25、heInternationalConferenceonMachine Learning,PMLR,New York,NY,USA,19-24 June 2016;pp.1100-1109.18Hariri,S.;Kind,M.C.;Brunner,R.J.Extendedisolation forest.IEEE Trans.Knowl.Data Eng.2019,33,1479-1489.CrossRef.19Zong,B.;Song,Q.;Min,M.R.;Cheng,W.;Lumezanu,C.;Cho,D.;Chen,H.Deep autoencodinggaussianmixture

26、modelforunsupervisedanomalydetection.InProceedingsoftheInternationalConference on Learning Representations,Vancouver,BC,Canada,30 April-3 May 2018.20Gong,D.;Liu,L.;Le,V.;Saha,B.;Mansour,M.R.;Venkatesh,S.;Hengel,A.v.d.Memorizingnormality to detect anomaly:Memory-augmented deepautoencoder for unsuperv

27、ised anomaly detection.InProceedingsoftheIEEE/CVFInternationalConference on Computer Vision,Seoul,Korea,27-28October 2019;pp.1705-1714.A Method of Discriminating AbnormalData Based on Information EntropyYang Yaqi1,Li Boxiong2,3,Yang Dongxia1,Liu Yan4(1.Information Center of Yunnan Provincial Market

28、Supervision Administration,Kunming,China;2.School of Information Engineering,Kunming University,Kunming,China;3.Key Laboratory of Data Governance and Intelligent Decision-making in Yunnan Province,Kunming,China;4.Yunnan Information Technology Development Center,Kunming,China)Abstract:Information ent

29、ropy is one of the important tools to measure uncertain information,The existingabnormal data discrimination methods mainly aim at deterministic abnormal data,There are few researchreports on using information entropy to measure uncertain data to distinguish abnormal data,Therefore,thispaper propose

30、s an abnormal data discrimination method based on information entropy,On the basis oftraditional abnormal data discrimination algorithm based on logistic regression,Shannon formula is added tocalculate information entropy,Using information entropy to find the highest accuracy corresponding to theopt

31、imal cutting value,Taking DDos attack data in CIC-IDS2017 data set as experimental data,The improvedalgorithm is compared with the original logistic regression abnormal data discrimination method,and theaccuracy of the improved discrimination algorithm is improved through experiments.The experimental resultsshow that the proposed algorithm is effective and feasible,which provides a new research idea for thesubsequent abnormal data discrimination method.Key words:logistic regression;Shannon formula;information entropy;abnormal data discrimination199-

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服