收藏 分销(赏)

基于改进模糊聚类的网络敏感数据流动态挖掘研究.pdf

上传人:自信****多点 文档编号:304700 上传时间:2023-07-30 格式:PDF 页数:8 大小:1.32MB
下载 相关 举报
基于改进模糊聚类的网络敏感数据流动态挖掘研究.pdf_第1页
第1页 / 共8页
基于改进模糊聚类的网络敏感数据流动态挖掘研究.pdf_第2页
第2页 / 共8页
基于改进模糊聚类的网络敏感数据流动态挖掘研究.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报

2、保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报

3、保山学院学报保山学院学报基于改进模糊聚类的网络敏感数据流动态挖掘研究戴美玲(南京审计大学 实验中心,江苏 南京 211815)摘要 网络敏感数据流动态挖掘过程中受到挖掘规则限制,导致挖掘效率下降,提出基于改进模糊聚类的网络敏感数据流动态挖掘方法。将自动收发行为作为分类准则,对网络数据流实施分类处理,以此获取网络敏感数据流。制定网络敏感数据流动态挖掘规则,限制特征提取过程,得到敏感数据流提取特征参数。根据敏感数据流特征参数对数据流进行聚类处理,利用改进模糊聚类算法挖掘出数据间隐含的信息模式,实现网络敏感数据流动态挖掘。实验结果分析证明,利用提出方法进行网络敏感数据流动态挖掘时具有较高的挖掘效率,

4、实际应用效果好。关键词 改进模糊聚类;网络敏感数据流;动态挖掘;分类准则;挖掘规则;特征参数中图分类号 TP3文献标识码 Adoi:10.3969/j.issn.1674-9340.2023.02.008文章编号 1674-9340(2023)02-0044-08收稿日期:2022-09-05基金项目:南京审计大学教育教学改革项目“教学视频资源库的建设与应用”(项目编号:2022JG061);南京审计大学教育教学改革项目“现代信息技术在高校教学中的应用策略研究”(项目编号:2020JG060)作者简介:戴美玲(1984),女,汉族,江苏南京人,硕士,工程师,研究方向为计算机技术。引言由于网络数

5、据流具有高速、连续、动态、动态变化的特点,利用二进制程序算法和决策树算法对网络敏感数据流进行动态发掘,无法很好地挖掘出海量数据,导致挖掘效率低、挖掘准确性差等,因此急需研究一种新的数据流挖掘方法。作为常规聚类算法在网络数据流领域中的延伸,因改进模糊聚类方法具有挖掘速度快、准确度高等优势,已经在实际中得到了越来越广泛的应用1。本文通过分析网络数据流中正常数据流与敏感数据流之间的特点,并对其进行分类,将敏感数据流纳入一个集合中。根据敏感数据流所具备的自动收发信息数据的网络行为制定挖掘规则,在限定挖掘规则条件下提取数据流特征参数,以此利用改进模糊聚类方法针对不同类别中个体间差异较大和同一类别中个体间

6、差异较小的特点2,对网络敏感数据流间隐含的数据模式进行搜寻,进而实现网络敏感数据流动态挖掘。1 网络敏感数据流动态挖掘方法设计1.1 网络数据流分类在网络系统中,一些数据流在通常情况下会在网络系统刚开始运行的一瞬间自动产生发送或者接收用户个人基本信息的行为,而这些数据流中一般掺杂着敏感数据流。所以,实现网络敏感数据流动态挖掘过程的首要步骤就是要根据网络数据流所具备的自动收发数据行为这项原则对其进行分类。本文采用的分类方法为数据概率分类和邻近值分类法3。数据概率分类法的数学表达式为:P()Y|X=P()Y-X|Y P()YP()X(1)戴美玲:基于改进模糊聚类的网络敏感数据流动态挖掘研究其中,P

7、()Y|X表示网络数据总量X中具有自发收发信息行为的数据总量;X表示网络数据总量;P()Y-X|Y表示无自发收发信息行为的数据总量;P()Y表示预测的具有自发收发信息行为的数据流;P()X表示网络数据量的预测值。利用公式(1)可计算得出在网络系统总数据流中具有自动收发数据行为的数据流总量,接下来采用邻近值分类法对网络数据流进行最终分类4。该分类方法的分类原理如图1所示。图1 邻近值分类法分类网络数据流原理图图1中,黑色矩形和白色矩形分别代表具有自发收发信息行为的数据流和无该行为的数据流;中间实线圆圈表示网络中具有自动收发数据行为的数据流构成的集合;外围虚线圆圈表示无自动收发数据行为的数据流构成

8、的集合5。用P()Y|X表示中间实线圆圈的面积则有如下公式:Y=maxIY=P()Y|X(2)上式中,Y表示网络中的敏感数据流的集合;I表示网络中总数据流集合。根据公式(2)计算,网络中敏感数据流便会自动被纳入由中间实线圆圈组成的敏感数据流集合Y,从而完成对网络敏感数据流的分类。1.2 制定网络敏感数据流动态挖掘规则假设网络系统数据库中的数据集合J与其中的敏感数据流集合Y之间具有相关性挖掘规则,则两者之间的关联度计算公式如下:S()J C=JC|D(3)上式中,|D表示敏感数据流集合Y中的因素数量。计算两个集合中具有关联规则的元素间的最小支持度,具体的计算公式如下:sup()S=|J|D(4)

9、设定相关度中的最小支持度,当公式(4)的计算结果大于设定的值时,将集合J定义为频繁项,利用融进改进决策分类,实现频繁项条件下集合Y的敏感数据流挖掘规则制定,如图2所示。图2 网络敏感数据流挖掘规则路径由图2所示,假定改进决策分类中存在一个路径R,该路径下的挖掘规则记为,则挖掘规则-45第 42 卷第 2 期保山学院学报2023 年 4 月的计算公式如下:=R ai(5)上式中,ai表示集合Y中的第i个元素。在式中引入一个构造挖掘规则的关键树Tree,当关键树的值取为一个任意非零值时,此时挖掘规则呈现出线性递归,为了避免关键树的头部节点出现交叉,导致挖掘规则不能将不频繁因素项剔除,因此在关键树尾

10、部规划一个可达距离6,计算公式如下:H()p,q=maxk-d()q,d()pd()q+d()p(6)上式中,k表示挖掘规则挖掘到的因素项数量;p表示挖掘规则;q表示挖掘规则p相对应的不频繁因素项;H表示可达距离;d表示因素项到关键树头部节点的距离。利用下述公式计算频繁因素项的可达聚合度:()p=1q N()pr-H()p,q(7)上式中,N()p表示挖掘规则中的因素项数量;r表示因素项总数量。由上式可知,p的局部可达聚合度是q的可达距离的倒数7。在此需要计算挖掘规则中异常因素项的个数,避免公式(5)的计算结果中包含异常因素项,计算公式如下:Yin()p=q KN()pYink()qYink(

11、)p|KN()p|(8)根据上式可知,挖掘规则中的异常因素项可以反映出不频繁因素项的异常程度,异常因素Yin()p的个数越多,就表明该挖掘规则下的正常数据流越多8。为了将异常因素项的数量降到最低,利用KNN查询来确定异常因素项的数据流空间维度,当空间维度较高时,调用KNN中的X-树结构,调整异常因素项的空间维度,以此来降低查询的时间复杂度,计算KNN查询的时间复杂度公式为:Tc=O()logKN()P(9)上式中,O()logKN()P表示KNN的查询时间。通过调整上式计算结果的值,进而控制挖掘规则中的异常因素项的个数,至此完成对网络敏感数据流挖掘规则的制定。1.3 提取网络敏感数据流特征参数

12、基于挖掘规则以及网络基元结构,提取了敏感数据流特征参数9。假设网络数据库中待挖掘的敏感数据流矩阵为Q=q1,q2,qi,i表示数据流的序数,获取在i时刻网络中的敏感数据流矩阵qi=qi1,qi2,qim,对应的网络数据类别用zi表示,利用如下公式给定网络敏感数据流描述矩阵:Z=f()q1,q2,qn=()z1,z2,zn(10)根据数据挖掘规则,对高维度的敏感数据流进行降维,将数据流间的最大化与最小化差异作为提取特征参数的目标,得到特征向量集,对该向量集进行仿射变换,使得特征参数间的类间分散度达到最大,由此获取特征值10。具体过程如下:在敏感数据流矩阵中,为保证网络系统数据库中原有数据流的分布

13、结构不被打乱,利用数据流特征间最大间隔规则确定线性仿射:()Sb-SwQ=iwi(11)上式中,Sb、Sw分别表示网络中敏感数据流经过降维处理后的特征参数类间分散度和类内分-46戴美玲:基于改进模糊聚类的网络敏感数据流动态挖掘研究散度,这两个参数是网络基元结构划分的基础数据;表示数据挖掘规则;i表示线性仿射因子;wi表示类间间隔向量。因此,得到数据流特征向量为:W=maxi=1nwTi()Sb-Swwi(12)上式中,n表示敏感数据流矩阵中元素数量;T表示仿射转置因子。将上述数据流特征向量投影到低维空间矩阵A中,使其获得最大类间分散度:A=WTX(13)经过维度变换后,得到网络敏感数据流的空间

14、向量为:Wopt=argmaxAtr()SWb-SWw(14)对网络数据流之间的基元结构差异进行量化处理,防止迭代过程中由于随机性和非线性引起的动态挖掘特征不准确问题,具体计算公式如下:lnfo()B=-i=1mWopt log2Pi(15)lnfoA()B=-j=1vBjB lnfo()B(16)上式中,lnfo()B、lnfoA()B表示数据流不同基元结构;B表示网络数据流基元结构中的基本向量;v表示B中包含的元素数量;Wopt表示网络敏感数据向量;Pi表示网络基元概率值。数据流不同基元结构间的差异计算公式如下:Gain()C=lnfo()B-lnfoA()B(17)在t时刻,两者之间的概

15、率差异阈值为:Pri()t=Gain()C-Pihi()t+npi()t(18)上式中,hi()t表示网络基元概率值Pi在网络敏感数据流中的变异因子;npi()t表示敏感数据流特征参数响应系数。因此,可得到网络敏感数据流特征参数响应函数为:Sri()t=S()t hi()t+nsi()t(19)上式中,S()t表示网络敏感数据流的信道激活函数。挖掘到的敏感数据流特征为:ri()t=Sri()t Pri()-t=S()t P()-t hi()t+nti()t(20)根据公式(20),计算网络敏感数据流挖掘特征的概率:bijPj()t=aijri()tPj()t/j1+()Pj()t/j(21)上

16、式中,aij表示敏感数据流特征系数;j表示敏感特征系数;bij表示敏感数据流特征向量;Pj()t表示概率值。由以上计算过程,得到优选的网络敏感数据流动态可挖掘特征为:G()Qi=bijPj()t Q(22)上式中,Q表示网络数据库中待挖掘的敏感数据流矩阵。1.4 基于改进模糊聚类的数据流动态挖掘本文采用改进模糊聚类方法分析大数据中隐含的数据模式,在挖掘规则条件下,根据数据自身的特征参数较多、类别间差异较大、类别内部之间的特征尽量相似的原理,将不同类别中的个体分成若干类,根据差异不同,将类别间的差异最大化,个体间的差异最小化11。利用改进模糊聚类方法动态挖掘网络敏感数据流的具体流程如图3所示。假

17、设用M=n1,n2,nn,labels表示敏感数据特征矩阵,l是其中的任一元素,labels表示敏-47第 42 卷第 2 期保山学院学报2023 年 4 月感数据特征标记向量。利用标记向量初始化聚类中心T,可以得到:T=i=1Ilabels()i(23)上式中,I表示网络中可挖掘的数据的标记数量。在聚类过程中,如果某些可挖掘数据流的标记缺失,则由初始化后的局部自动产生标记,并不断更新上述初始化操作,初始化过程的终止准则为网络数据流出现重复聚类12-13。对特征集合中的特征点进行聚类分配,将每一个特征点ni和标记向量labels分配到聚类模式集L中,即:L=argmin|ni-T|(24)根据

18、公式(24),再次对聚类中心T进行初始化,可得:T=Li=1uni(25)上式中,ni表示敏感数据流挖掘特征点向量。至此,则完成对网络敏感数据流的模糊聚类分析,挖掘得到了网络敏感数据流间隐藏的数据模式,并对该模式进行合理性评价,若为合理数据模式,则利用知识表示;若为不合理数据模式,则重新挖掘数据隐藏模式,进而实现网络敏感数据流的动态挖掘14-15。2 实验论证为测试本文提出的方法在网络敏感数据流动态挖掘应用中的挖掘效率,设计实验论证环节,图3 利用改进模糊聚类分析动态挖掘网络敏感数据流流程图-48戴美玲:基于改进模糊聚类的网络敏感数据流动态挖掘研究并选用二进制程序算法和决策树算法(在此标记为方

19、法1与方法2),并与本文设计的方法作为对比,比较三种方法对网络敏感数据流的挖掘效率。2.1 实验准备本次实验中的敏感数据流利用数据发射器生成的随机数据流作为实验数据,依据数据流类别共划分为15段,每两段列为一组,标记为一个数据挖掘统计点,共有8个挖掘点。各数据流平均长度分别为7、6、10、12,频繁项长度分别为6、4、4、6。数据发生器实物图如图4所示。图4 数据发生器实物图在此基础上,另外选择3台规格型号均相同的3台PC机用来保存数据发生器生成的数据,利用串口数模转换的方式对数据进行读取。2.2 实验说明上述准备的实验数据的连接是在规定时间内和规定通讯协议下完成的全部分组数据序列,所有数据序

20、列均是在固定挖掘统计点中进行IP源与IP地址间传输,每个数据序列包含上百个字节以及不同协议类型、属性标记和500万个连接数据。对不同算法挖掘效率进行验证所选取的对比指标为网络敏感数据流挖掘耗费时间和挖掘数据流量,具体描述为:挖掘耗时指的是对网络敏感数据流将发现到输出的总时间;挖掘数据流量指的是在固定数据流分段的数据挖掘统计节点中挖掘到的敏感数据流量。2.3 数据挖掘流量实验分析对该8个挖掘点利用数据生成器随机生成足够多数量的网络敏感数据,统计并对比三种挖掘方法在单位时间内挖掘到的数据流量,对比结果如图5所示。图5 数据挖掘流量实验对比结果由图5可知,从整体来看,方法1、方法2与本文方法对数据流

21、的挖掘流量均逐渐增多,但相比之下,本文方法在不同挖掘统计点中的挖掘流量最多,在28 MB左右明显优于其他两种方法。由此可以证明本文方法在固定段数的挖掘点统计内,挖掘到的敏感数据流量更大,证明该方法具有较高的挖掘效率。-49第 42 卷第 2 期保山学院学报2023 年 4 月2.4 挖掘耗时实验分析在前文统计的挖掘流量基础上,接下来将网络敏感数据流传至数据控制中心,并对数据进行更新交换,统计并对比三种方法从发现敏感数据频繁项到根据计算得出的最小支持度而输出敏感数据频繁项集的总时间,即挖掘耗时,进一步测试算法的数据挖掘效率,对比结果如表1所示。表1 挖掘耗时实验对比结果挖掘点1357911131

22、5挖掘耗时(s)方法143.448.752.651.650.449.350.448.7方法228.631.437.332.632.133.231.431.7本文算法16.522.421.320.621.220.720.120.6由表1可知,在敏感数据流分段更新的起始阶段,三种方法的挖掘耗时均随着数据流分段数量的增大而不断增加,而后趋于稳定化;三种方法中,方法1的挖掘耗时最大,约为48 s,其次为方法2,约为33 s,而本文方法对数据流的挖掘耗费时间最少,平均大约保持在20 s,明显低于其他两种方法。由此可以证明,本文提出的方法可以在较短时间内挖掘出网络敏感数据流,具有数据挖掘效率较高的特点。综

23、合以上对比实验以及实验结果分析控制,本文提出的方法应用于网络敏感数据流动态挖掘过程中,其挖掘效率较高,能够为网络数据的深入研究提供重要的数据参考。3 结语本文提出了一种基于改进模糊聚类的网络敏感数据流动态挖掘方法。通过分析网络敏感数据流的特点,将其与正常数据流进行区分,针对敏感数据流特征制定动态挖掘规则,限定特征提取过程,基于挖掘规则提取敏感数据流可挖掘特征参数,利用改进模糊聚类方法对具有可挖掘特征参数的敏感数据流进行聚类分析,找出其中的数据隐藏模式,从而实现对敏感数据流的动态挖掘。经实验论证表明,本文设计的方法在网络敏感数据流挖掘规则中具有挖掘流量多、挖掘耗时短以及挖掘准确度高等优势,方法整

24、体性能较好,具有较好的推广前景。参考文献:1 程浩东,韩萌,张妮,等.基于滑动窗口模型的数据流闭合高效用项集挖掘J.计算机研究与发展,2021,58(11):2500-2514.2 潘燕.基于改进决策树的网络敏感数据流动态挖掘算法设计J.宁夏师范学院学报,2020,41(10):53-60.3 熊菊霞,吴尽昭.异构复杂信息网络敏感数据流动态挖掘J.计算机工程与科学,2020,42(04):628-633.4 程雅琼.基于改进聚类算法的网络平台异常数据挖掘方法J.长江信息通信,2022,35(04):38-40.5 卢剑伟.基于神经网络模型的COPD诊断信息敏感数据自动挖掘方法J.自动化技术与应

25、用,2021,40(11):80-85.6 张博.大数据中数据挖掘模型的模糊改进聚类算法研究J.电子技术与软件工程,2020(18):159-160.7 景慎艳,刘松迪.分块自适应加权改进大规模概率模糊聚类J.火力与指挥控制,2021,46(12):88-93.8 张颖,彭然.基于改进蜻蜓优化多核模糊聚类算法的异常检测J.数学的实践与认识,2021,51(19):208-219.9 孟学尧,郭倩倩,郭海儒.一种改进萤火虫算法的模糊聚类方法J.小型微型计算机系统,2021,42(06):1165-1170.10 刘争,祝利,李霞.改进模糊聚类分析在战术通信网络识别中的应用J.舰船电子工程,202

26、0,40(10):52-57.11 王露,王士同.改进模糊聚类在医疗卫生数据的Takagi-Sugeno模糊模型J.南京大学学报(自然科学),2020,-50戴美玲:基于改进模糊聚类的网络敏感数据流动态挖掘研究Research on Dynamic Mining of Network Sensitive Data FlowBased on Improved Fuzzy ClusteringDAI Meiling(Lab Center,Nanjing Audit University,Jiangsu Nanjing 211815,China)Abstract:In the process of

27、dynamic mining of network sensitive data flow,the mining efficiency is reduced due to the restriction of mining rules,and a dynamic mining method of network sensitive dataflow based on improved fuzzy clustering is proposed.The automatic sending and receiving behavior istaken as the classification cr

28、iterion,and the network data flow is classified to obtain the network sensitive data flow.The dynamic mining rules of network sensitive data flow are formulated to limit the feature extraction process,and the feature parameters of sensitive data flow are obtained.According to thecharacteristic param

29、eters of the sensitive data flow,the data flow is clustered,and the hidden information patterns among the data are mined by using the improved fuzzy clustering algorithm to realize thedynamic mining of the network sensitive data flow.The analysis of the experimental results shows thatthe proposed me

30、thod has high mining efficiency and good application effect in dynamic mining of network sensitive data streams.Key words:Improved fuzzy clustering;Network sensitive data flow;Dynamic mining;Classification criteria;Mining rules;Characteristic parameters56(02):186-196.12 肖满生,张龙信,张晓丽,等.一种改进的区间型不确定数据模糊聚类方法J.电子与信息学报,2020,42(08):1968-1974.13 邬浩泽,朱晨烜,张贻山,等.一种基于改进模糊聚类算法的自适应典型日选取方法J.智慧电力,2022,50(01):60-67.14 苏艺凡,党建武,王阳萍,等.改进的区间二型模糊聚类遥感影像变化检测J.测绘通报,2021(07):44-51+58.15 刘旭东,李云红,屈海涛,等.一种结合空间信息的改进模糊聚类图像分割算法J.西安工程大学学报,2021,35(03):67-73.-51

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服