基于GMM聚类的铁路网络数据风险等级分类方法.pdf

资源描述

1、基于 GMM 聚类的铁路网络数据风险等级分类方法商婧1，王佳宁1，刘旭1，李琪2，王健1（1.北京交通大学计算机与信息技术学院，北京100044；2.北京经纬信息技术有限公司，北京100081）摘要：铁路行业信息基础设施及重要信息系统产生的数据种类繁多、数量庞大且价值密度高，而不同类型或等级的铁路网络数据存在不同级别的安全风险。为了完善铁路网络数据风险评估机制，设计一种基于高斯混合模型（GMM，GaussianMixtureModel）聚类的铁路网络数据风险等级分类方法。从数据和风险角度提取关键信息，构建风险信息数据集；通过 K-means 聚类获得初始聚类中心；基于混合距离计算进行 GMM

2、聚类，实现数据风险等级划分。经实验验证，与传统 K-means 聚类、谱聚类算法相比，GMM 聚类算法对铁路网络数据的聚类效果更优，能够更加准确地对铁路网络数据进行风险等级分类，从而为进一步落实铁路网络数据安全管理要求提供重要的技术支撑。关键词：高斯混合模型（GMM）聚类；K-means 聚类；最大期望（EM）算法；铁路网络；数据风险；风险等级分类中图分类号：U285.49:TP393文献标识码：ADOI：10.3969/j.issn.1005-8451.2023.11.09Risk level classification method for railway network databas

3、ed on GMM clusteringSHANGJing1，WANGJianing1，LIUXu1，LiQi2，WANGJian1(1.SchoolofComputerandInformationTechnology,BeijingJiaotongUniversity,Beijing100044,China；2.BeijingJingweiInformationTechnologiesCo.Ltd.,Beijing100081,China)Abstract:Theinformationinfrastructureandimportantinformationsystemsintherailw

4、ayindustrygenerateawidevarietyofdatatypes,largequantities,andhighvaluedensity,anddifferenttypesorlevelsofrailwaynetworkdatahavedifferentlevelsofsecurityrisks.Inordertoimprovetheriskassessmentmechanismforrailwaynetworkdata,thispaper designed a risk level classification method for railway network data

5、 based on GMM clustering.The paperextractedkeyinformationfromtheperspectivesofdataandrisk,andconstructsariskinformationdataset,obtainedinitialclustercentersthroughK-meansclustering,performedGMMclusteringbasedonmixeddistancecalculation,andimplemented data risk level classification.Through experimenta

6、l verification,compared with traditional K-meansclusteringandspectralclusteringalgorithms,theGMMclusteringalgorithmhasabetterclusteringeffectonrailwaynetworkdataandcanmoreaccuratelyclassifytherisklevelofrailwaynetworkdata,whichprovideimportanttechnicalsupportforfurtherimplementingtherequirementsofra

7、ilwaynetworkdatasecuritymanagement.Keywords:Gaussian Mixture Model(GMM)clustering；K-means clustering；Expectation Maximization(EM)algorithm；railwaynetwork；datarisk；risklevelclassification随着铁路的高速发展，铁路行业已经进入了大数据时代1；逐步成熟的大数据技术能够为铁路运输组织的各个环节予以高效指导2-3。铁路网络业务场景众多，数据资产规模庞大、类型繁杂、价值密度高，因此对关键信息基础设施、重要数据、个人信息、数

8、据跨境流动等方面有较高的安全保护需求。研究并形成铁路网络数据风险等级分类方法，对落实铁路网络数据安全管理要求，确保铁路网络数据安全风险可控、在控具有重大意义。目前，已有众多学者对风险等级分类技术进行收稿日期：2023-07-31基金项目：中国国家铁路集团有限公司科技研究开发计划课题（K2022W006）作者简介：商婧，在读博士研究生；王佳宁，在读硕士研究生。第32卷第11期Vol.32 No.11数据安全Data Security文章编号：1005-8451（2023）11-0039-06RCA2023.11 总第 320 期39了研究。骆公志等人4

9、提出一种基于粗糙集理论的网络信息安全风险等级分类技术，通过成对比较矩阵赋予每个信息系统对应权重，生成加权多粒度粗糙集，并在模型容错性等方面进行了详细分析，但由于该方法需要拓展粗糙集模型并获取信息系统各类规则，实施过程较为复杂；陈玮等人5使用卷积神经网络和双向长短期记忆模型对企业新闻数据进行风险划分，但该方法需要对大量训练语料进行人工信息标注，且构建双向长短期记忆模型所花费的时间过多，实用性较差。除上述方法外，也可使用聚类算法进行风险等级分类。李畅等人6基于模糊谱聚类技术，依据真实驾驶数据，建立了在线驾驶风险等级分类算法，但由于谱聚类技术对每簇数据量有一定的要求，故在数据量较大时使用受限；丁慧等

10、人7使用改进的密度聚类算法进行风险等级判定，通过查询每个节点的欧氏平均距离邻域，分别计算每个节点密度和所有节点平均密度，得到每个节点的方差，并采用基于等深度分块法进行数据分割，从而在每个数据分区运行密度聚类算法，得到聚类结果。然而，该方法在对数据进行标准化处理后，使用单一距离度量方法进行聚类，没有考虑数据属性的复杂性对聚类结果带来的影响，对实际应用场景的适应性较差。综上所述，现有的风险等级分类技术多数需要获取复杂规则或大规模信息标注，一些使用聚类方法的技术也没有考虑到数据属性的复杂性，且没有进行结果的有效性评估，进而导致无法得到最优的分类结果。为克服现有风险等级分类方法的局限性，同时对铁路网络

11、数据进行更加有效的风险等级分类，本文提出了基于高斯混合模型（GMM，GaussianMixtureModel）聚类的铁路网络数据风险等级分类方法。该方法考虑数据的无序和有序属性，基于混合距离计算进行 GMM 聚类，最终能够将输入的数据根据其等级和生命周期阶段进行更加准确、有效的风险等级分类。本文算法以铁路数据分类分级结果为基础，识别数据在全生命周期内的潜在风险，研究并确定铁路网络数据风险等级分类，为制定差异化的数据安全保护措施提供支撑，对进一步落实铁路网络数据安全管理要求具有重大意义。1 相关技术介绍1.1 K-means 聚类K-means 聚类算法是一种迭代求解的聚类

12、分析算法，算法步骤如下。（1）确定簇数和最大迭代次数，初始化类簇。（2）初始化聚类中心。从数据样本中，随机选取 k 个数据样本点作为聚类中心。（3）将数据样本分配到与其欧式距离最近的类中。（4）迭代聚类中心。计算每个簇中所有数据样本点的均值，作为新的聚类中心。（5）如果聚类中心不再偏移或偏移很小，或者达到最大迭代次数 N，则停止迭代，输出聚类结果，否则重复步骤（3）和（4）。1.2 距离度量考虑到铁路网络数据属性较为复杂等特点，本文对有序属性和无序属性使用多种距离计算方式进行度量。1.2.1VDM 距离mu,amu,a,iVDM（ValueDifferenceMetric）主要用于对不存在序关

13、系的离散无序数据属性进行距离度量。令表示在属性 u 上取值为 a 的样本数，表示在第 i 个样本簇中在属性 u 上取值为 a 的样本数，k 为样本簇个数，则属性 u 上两个离散值 a 和 b 之间的VDM 距离为VDM2(a,b)=ki=1?mu,a,imu,amu,b,imu,b?2（1）1.2.2MindkovDM 混合距离ncnnc对于有序属性和无序属性同时存在的混合距离计算，本文采用 MindkovDM 距离计算方法，将欧式距离和 VDM 距离结合，假定共有 n 个属性，其中，个无序属性，个有序属性，则 MinkovDM 距离为MinkovDM(xi,xj)=vutncu=1VDM2(

14、xiu,xju)+nu=nc+1|xiuxju|2（2）1.3 GMM 聚类根据铁路网络数据规模大、数据类型多样等特点，本文使用 GMM 聚类技术。对于大规模数据，数据安全2023年11月RCA402023.11 总第 320 期GMM 聚类算法相较其他聚类算法更加有效，且时间复杂度更低8，聚类结果也更加稳定。与 K-means 聚类方法不同，这种聚类方法依概率划分各个样本簇，而不会将数据确定地分为某一个簇。该方法采用的训练模型是几个高斯模型的加权和，之后将样本数据分别在若干个高斯模型上进行投影，分别得到这些样本数据点被划分在各个类簇上的概率，最后选取概率最大的簇作为数据点最终划分结果9。2

15、铁路网络数据风险分类算法铁路网络数据风险分类步骤为：（1）数据预处理，从风险和数据角度提取关键信息，构建风险信息数据集；（2）利用数据的有序属性进行 K-means聚类，获得初始聚类中心；（3）通过计算混合距离调整聚类中心；（4）基于上述聚类中心，进行多轮迭代，完成 GMM 聚类，并对每轮聚类结果进行评估；（5）将评估表现最好的聚类结果作为最终类簇划分，并确定每类风险评分，最终根据评分确定风险等级，完成数据风险等级分类，如图 1所示。xnum_iter k x x1 x2K-meansyx1x2 y GMMCPSPCP/SPCP/SPnum_iter图1铁路网络数据风险分类算法流程2.1 数据

16、预处理对铁路网络数据进行预处理，根据铁路网络数据风险评估指标，从风险和数据角度提取关键信息。从数据角度，以铁路网络数据分类分级要求作为基础依据，提取不同级别数据的关键信息，包括数据等级、数据在全生命周期中所处不同阶段，形成数据信息；从风险角度，对现有数据风险进行分析，获取数据生命周期不同阶段面临的风险类型、风险影响程度，形成统一的风险信息。将以上 2 方面信息构成数据风险信息并存入风险信息数据库，数据自身属性与风险属性联合作为辅助数据风险等级分类的属性。上述过程获取的数据属性被分为 2 类，即有序属性和无序属性。有序属性：能直接在属性值上计算距离的属性，如1，2，3。无序属性：不能直接在属性值

17、上计算距离的属性，如小狗，小猫，老鼠。2.2 通过 K-means 聚类获得初始聚类中心在对数据进行预处理后，使用数据中的有序属性进行 K-means 聚类操作得到初始的聚类中心和聚类结果，为每个数据样本分配初始标签，方便后续利用混合属性对聚类中心进行调整。2.3 通过计算混合距离调整聚类中心利用欧式距离计算方法对有序属性间的距离进行计算，利用 VDM 距离计算方法和步骤（2）中得到的数据标签对无序属性间的距离进行计算。随后使用 MindkovDM 混合距离计算方法聚合计算得出混合距离，实施基于混合距离的 K-means 再聚类，得到每个类簇的簇中心。2.4 GMM 聚类与评估将步骤（3）中得

18、到的聚类中心作为 GMM 聚类算法的初始中心，使用最大似然函数确定每个数据样本属于哪个高斯分布；使用最大期望（EM，ExpectationMaximization）算法求解 GMM 参数10，更新所有高斯分布的均值和方差；计算模型的似然函数，使用似然函数判断模型参数是否已经收敛；迭代更新模型参数，直至收敛，即完成一次聚类过程。设置多个轮次进行上述聚类过程，计算聚类结果的紧密性（CP）与分离性（SP），其中，CP 表示每一个类中各数据点到聚类中心的平均距离，CP 值越低表明类内数据点间距离越近；SP 表示各聚类中心两两之间距离之和的平均值，SP 值越高表明类间距离越远。该步骤将 CP 值与 SP

19、值的比值作为每次聚类的评价指标，规定轮次的聚类结束后，将比值第32卷第11期商婧等：基于 GMM 聚类的铁路网络数据风险等级分类方法数据安全RCA2023.11 总第 320 期41最小的聚类结果作为最终的聚类划分（即风险划分）结果。2.5 计算风险评分确定风险等级假设每个样本面临 m 个数据风险，则每个样本的风险分数计算公式为样本风险分=数据等级+数据风险影响程度(1)（3）数据风险影响程度=mi=1该样本面临的第 i 个数据风险影响程度值（4）0.5 1其中，用来平衡数据等级与数据风险影响程度对最终风险值的影响占比，由于数据等级的高低也是影响数据潜在风险危害程度的重要因素，故通常；数据

20、风险影响程度值由输入的数据风险表提供。利用风险等级计算公式，根据每一类簇中的数据样本的有序属性的属性值计算评分，得到最终的风险等级分类。假设某一类簇中有 m 个样本，则这一类的风险总分计算公式为类风险总分=1mmi=1样本 i 风险分（5）对于每一个类簇，计算出的风险分数越高，表示该类包含的数据潜在的风险越大，风险等级越高。3 实验与分析对提出的数据风险等级分类方法进行实验评估：收集铁路网络数据作为实验数据集，将本文提出的GMM 聚类算法和传统 K-means 聚类、谱聚类算法进行结果的直观对比与分析；通过比较上述算法在轮廓系数11、CH（Calinski-Harabasz）分数、戴维森堡丁指

21、数（DBI）12等评价指标上的表现，进一步评估聚类效果。3.1 数据集本文收集铁路网络数据，并对其进行预处理，根据铁路网络数据风险评估指标从风险和数据角度提取关键信息。从数据角度，提取数据等级、数据在全生命周期中所处不同阶段，形成数据信息，按照数据的重要程度将数据划分为一般数据、重要数据和核心数据，此外，将一般数据划分为 4 级，由 S1S4 表示。数据等级由低到高表示为 05。如表 1 所示。表1数据等级核心数据重要数据一般数据S1S2S3S4543210从风险角度，获取数据生命周期不同阶段面临的风险类型及风险影响程度，分别如表 2、表 3 所示。表2数据生命周期及相应风险类型恶意代码注入数

22、据分类分级或标记错误数据不可控数据未脱敏数据窃取数据监听数据篡改数据到期未销毁数据采集数据传输数据存储数据共享数据处理数据销毁表3风险影响程度等级标识定义5很高若风险发生，将对资产造成特别重大损害4高若风险发生，将对资产造成重大损害3中等若风险发生，将对资产造成一般损害2低若风险发生，将对资产造成较小损害1很低若风险发生，对资产造成的损害可以忽略将从以上 2 方面提取的信息联合作为辅助数据风险等级分类的属性，构建数据集。3.2 评价指标3.2.1轮廓系数对于单个样本，设 a 是与它同类别中其他样本的平均距离，b 是与它距离最近的不同类别中样本的平均距离，则其轮廓系数为s=bamax(a,b)（

23、6）一个样本簇的轮廓系数取值范围为 1，1，轮廓系数越高，聚类效果越好。3.2.2CH 分数CH 分数通过计算类中各点与类中心的距离平方和来度量类内的紧密度，通过计算各类中心点与数据集中心点距离平方和来度量数据集的分离度，CH指标由分离度与紧密度的比值得到。取值范围为数据安全2023年11月RCA422023.11 总第 320 期0，+），CH 分数越大，聚类效果越好。3.2.3DBI 指数DBI 指数又称为分类适确性指标，取值范围为0,+），该指数越小，聚类效果越好，计算公式为DBI=1NNi=1maxj,iSi+Sj?wi wj?2（7）Siwi wj?2其中，为第 i 类样本到其类中心

24、的平均欧氏距离；为第 i 和第 j 类的类中心欧氏距离。3.3 实验结果分析3.3.1GMM 聚类结果及分析通过 GMM 聚类算法将数据集划分为 5 类，根据每类的风险分值进行风险等级划分，分数越高，风险越大。风险等级由低到高分为 I 级、II 级、III 级、IV 级、V 级。为获得最好的聚类结果，设置多个迭代次数进行 GMM 聚类，将 CP 和 SP 的比值作为评价指标，对每次聚类结果进行评估，确保聚类结果可靠，多轮聚类结束后，将比值最小的聚类结果作为最终的聚类划分结果。聚类结果如图 2 所示。图2GMM 聚类结果及风险分类情况3.3.2K-means 聚类结果及分析只考虑有序属性的 K-

25、means 聚类算法及考虑混合属性的 K-means 聚类算法所得的聚类结果分别如图 3、图 4 所示。根据实验结果，可以得出无论是否考虑数据的混合属性，传统 K-means 聚类结果对类簇的划分界限均不清晰，各个类簇之间的重叠情况较为严重。3.3.3谱聚类结果及分析采用谱聚类算法所得聚类结果如图 5 所示，该方法无法产生正确的聚类划分结果，聚类中心偏移严重，聚类数据点划分类别不明确。综上，通过聚类结果的直观对比，本文所提方法比传统 K-means 聚类方法及谱聚类方法更有效，产生的风险划分结果更加明确清晰。3.3.4各聚类算法评估指标对比除通过聚类结果直接进行上述对比，本文还使图3只考虑有序

26、属性的 K-means 聚类结果图4考虑混合属性的 K-means 聚类结果图5谱聚类结果第32卷第11期商婧等：基于 GMM 聚类的铁路网络数据风险等级分类方法数据安全RCA2023.11 总第 320 期43用轮廓系数、CH 分数、DBI 指数这 3 个聚类效果评估指标，对以上 4 种聚类结果进行分析。评估指标计算结果如表 4 所示。表4各种算法聚类效果评估指标GMM算法（本文算法）只考虑有序属性的K-means算法考虑混合属性的K-means算法谱聚类算法轮廓系数0.3130.2180.1290.298CH分数461.35073522.46201387.90735163.54651DB

27、I指数1.387774.635125.411754.17126根据 3.2 节可知，轮廓系数越高，CH 分数越大，DBI 指数越小，聚类效果越好。由表 4 可知，本文提出的 GMM 算法在轮廓系数上计算结果最高，在 CH分数上高于考虑混合属性的 K-means 算法和谱聚类算法，在 DBI 指数上明显低于其他 3 种算法。综上，使用本文提出的聚类算法所得到的聚类效果明显优于其余聚类算法的聚类效果。3.4 风险等级划分结果根据 3.3 节所得聚类结果，按照公式（3）（5）给出的风险值计算公式，将铁路数据划分为 5 个风险等级，如表 5 所示。表5数据风险等级划分结果等级风险类型风险值描述V高风险

28、21.40如果数据被损害，将造成特别重大危害IV高风险20.59如果数据被损害，将造成重大危害III中风险14.10如果数据被损害，将造成一般危害II中风险9.78如果数据被损害，将造成较小危害I低风险7.23如果数据被损害，将造成的危害可以忽略4 结束语本文设计了一种基于 GMM 聚类的铁路网络数据风险等级分类方法，使用 K-means 和 GMM 聚类技术对铁路网络数据进行多阶段聚类。实验结果表明，本文提出的方法解决了具有混合属性数据的类别划分问题和聚类算法随机初始化带来的聚类结果随机性问题，能够更加准确地对铁路网络数据进行风险等级分类，为完善铁路网络数据风险评估机制提供了有效的技术基础。

29、未来将考虑对铁路网络系统中各类风险与各种数据资产之间更加复杂的关系进行联合建模，利用深度学习技术作进一步的研究。参考文献王喆.铁路大数据治理体系研究 J.网络安全与数据治理，2022，41（11）：30-35.1司瑜.大数据在铁路运输组织工作中的应用 J.科技创新与应用，2019，9（14）：178-179.2马小宁.铁路大数据应用实践及展望 J.铁路计算机应用，2019，28（4）：8-13.3骆公志，陈圣瑜.基于粗糙集理论的网络信息安全风险等级分类方法 J.计算机时代，2022（9）：36-40，48.4陈玮，刘德彬，孙世通，等.结合深度学习和逻辑规则的企业新闻数据风险分类方法：中国 10

30、9472470AP.2019-03-15.5李畅，孙海明，宋攀.乘用车谱聚类 FCAS/PCW 风险等级分类算法研究 J.湖北汽车工业学院学报，2020，34（1）：32-38.6丁慧，陈湘华，陈大伟，等.一种基于数据信息挖掘技术的火灾防控方法：中国 109472470AP.2023-06-30.7王凯南，金立左.基于高斯混合模型的 EM 算法改进与优化 J.工业控制计算机，2017，30（5）：115-116，118.8Celeux G,Govaert G.Gaussian parsimonious clusteringmodelsJ.PatternRecognition,1995,28(5

31、):781-793.9BalakrishnanS,WainwrightMJ,YuB.Statisticalguaranteesfor the EM algorithm:from population to sample-basedanalysisJ.TheAnnalsofStatistics,2017,45(1):77-120.10朱连江，马炳先，赵学泉.基于轮廓系数的聚类有效性分析 J.计算机应用，2010，30（S2）：139-141，198.11DaviesDL,BouldinDW.AclusterseparationmeasureJ.IEEE Transactions on Pattern Analysis and MachineIntelligence,1979,PAMI-1(2):224-272.12责任编辑朱一数据安全2023年11月RCA442023.11 总第 320 期

展开阅读全文