1、Microcomputer Applications Vol.39,No.11,2023文章编号:10 0 7-7 57 X(2 0 2 3)11-0 156-0 4基于改进随机森林的海量结构化数据异常辨识算法宋冀峰(中国政法大学,刑事司法学院,北京10 0 0 8 8)摘要:结构化数据同时具备现海量与复杂的特征,导致其异常辨识难度上升,为此提出基于改进随机森林的海量结构化数据异常辨识算法。凭借互补集合经验模态分解,获得海量结构化数据的本征模态函数,去除噪声点。随机选择特征子集分裂决策树节点,采用AdaBoost算法对随机森林进行加权,完成随机森林改进。将改进随机森林的扩展空间范围定义为异常值
2、范围,结合局部敏感哈希算法度量去除噪声点后的数据异常度,实现海量结构化数据异常辨识。通过实验表明,所提算法的海量结构化数据异常辨识精准度最高达到了9 5.8%,结构化数据量为40 0 G时的辨识耗时为2.52 min,说明该算法的海量结构化数据异常辨识精准率高、耗时短,具有较高的应用价值。关键词:改进随机森林;结构化数据;数据异常辨识;本征模态函数;局部敏感哈希算法中图分类号:TP124Anomaly Identification Algorithm of Massive Structured Data(Criminal Justice College,China University of
3、Political Science and Law,Beijing 100088,China)Abstract:Structured data has both quantitative and complex characteristics,which makes it more difficult to identify massivestructured data anomalies.Therefore,an anomaly identification algorithm of massive structured data based on improved randomforest
4、 is proposed.By means of empirical mode decomposition of complementary sets,the intrinsic mode functions of massivestructured data can be obtained and noise points can be removed.The decision tree node is split by randomly selecting featuresubset,and the random forest is weighted by AdaBoost algorit
5、hm to complete the improvement of random forest.The extendedspatial range of the improved random forest is defined as the range of outlier,and the local sensitive hash algorithm is used tomeasure the degree of data anomalies after removing noise points,so as to realize anomaly identification of mass
6、ive structureddata.Through experiments,it has been shown that the proposed algorithm achieves a maximum accuracy of 95.8%for anoma-ly identification of massive structured data.When the structured data volume is 400 G,the identification time is 2.52 minutes,indicating that the algorithm has high accu
7、racy and short time for anomaly identification of massive structured data,and hashigh application value.Key words:improved random forest;structured data;data anomaly identification;eigenmode function;locally sensitiveHash algorithm特征较为显著的随机分量,求解了随机分量中的异常数,但0引言在实际应用中,这一算法仅适合于单个异常点检测,对于连随着社会信息化水平的不断提升
8、,网络中的结构化数据续范围的异常点检测的效果差;殷浩然等3提出一种基于三呈现爆发式增长。而面对如此海量的结构化数据,确定其中维卷积神经网络的数据异常辨识算法,提取数据矩阵中的异的异常数据能够充分满足高速存储应用、数据备份、数据共常特征,利用三维卷积神经网完成辨识任务。但该算法的运享以及数据容灾需求。但是由于结构化数据具有较高的复行过程较为复杂,导致耗时增加。杂性,导致异常点识别精准率低与辨识耗时长的问题出为此,综合上述问题,提出基于改进随机森林的海量结现,因此寻找一种面向海量结构数据异常点辨识的方法是构化数据异常辨识算法。随机森林作为一种深度学习算法,很有必要的。在数据异常点分类问题中的应用较
9、为广泛,使用随机选择特为此相关研究人员陆续提出各种结构化数据辨识算法。征子集增加结构化数据中决策树的随机性,从而缩小异常检文旭等2 针对数据辨识精度差问题,提出一种基于因子分析测的范围;通过局部敏感哈希算法对结构数据异常点度量,的数据异常辨识算法。通过分解大数据负荷曲线,获得波动引人相关的向量空间,最终完成对数据异常辨识。作者简介:宋冀峰(198 5一),男,博士生,研究方向为监察法学、数据挖掘。156.研究与设计文献标志码:ABased on Improved Random Forest微型电脑应用2 0 2 3年第39 卷第11期SONG JifengMicrocomputer Appli
10、cations Vol.39,No.11,20231海量结构化数据去噪处理由于原始结构化数据中存在大量环境噪声分量,这些均是大量不可用的数据,即噪声点,需要对数据中的噪声点进行去除。通过互补集合经验模态分解4方法,得到结构数据的本征模态函数,对本征模态函数分量进行重构,获得增强后的数据,实现数据去噪处理。互补集合经验模态分解方法5主要依赖于经验模态分解方法,假设初始结构化数据信号为Z(t),在信号引人正值的随机白噪声6 u(t)与负值的随机白噪声一u;(t),此时的结构化数据信号表达式如下:Z.(t)=Z(t)+sou(t),i=1,2,n式(1)中,u(t)代表第i轮引人的白噪声数值,s代表
11、信号噪声幅值。对信号进行经验模态分解,获得相对应的模态数值IMFi(t)与残差数值r;(t),经验模态分解7 表达式如下:X,(t)=ZIMFi(t)+r;(t)一k式(2)中,k代表最大相关熵。将正数值的随机白噪声的轮数进行到2 M轮次数时,结合文献8 的研究成果对于经验模态分解互补集合进行推理,其具体的表达式如下:IMF(0)=)2Mi=1将经验模态分解集合结果与残差数值进行组合重构,获得去噪的结构化数据:X,(0)=2IMF()+r:(t)k=12基于改进随机森林的异常数据范围确定随机森林9 是当前最广泛的分类器之一,通过随机选择特征子集来分裂决策树的节点,提高决策树的随机性,以此实现随
12、机森林改进,进而提高结构化数据异常范围的确定精准度。假设代表去噪后数据X,(t)的特征向量,yi代表X,(t)的特征类别,随机森林的通过平均决策树的输出公式10 如下:F()=式(5)中,T代表超参数,f()代表无剪枝的决策树,抽样数据集的预测公式为Zfi()I(E X,(t)D()=I(E X,(t)式(6)中,I代表指示函数。AdaBoost算法有着非常优秀的泛化能力,该方法通过不断更新样本的权重,使决策树将精力都使用在之前的分类样本上,进而提高泛化能力,Ada-Boost算法对随机森林进行T轮加权的具体公式如下:U(a)=2if(a)k=1式(7)中,i代表每轮权重系数。经过i一1轮迭代
13、随机森林模型表达式如下:研究与设计F-i()=1 fi()Ui()+.+U-i()i-ifi-i()(8)结合上述分析,搭建泛化风险函数,具体表达式如下:R(h)Rs(h)+(9)m/d式(9)中,S代表结构化数据训练集异常风险概率,R(h)代表泛化风险,Rs(h)代表经验风险,d代表模型维度,m代表样本数量,e代表泛化误差,代表任意一个常数。结合上述分析,确定异常范围,具体公式如下:q=R(h)/sum(F.():=13结构化数据异常辨识方法设计(1)通过局部敏感哈希算法,在数据异常范围内训练数据,将牵引数据集按照不同类别进行分类,设定异常缩小范围后的数据Q,建立相应的哈希表。其在高斯分布中
14、分布均匀,N形成高斯矩阵A,通过结构化数据在高维空间中分布稀疏的(2)情况,获得结构化数据的中空间几何坐标位置,假设结构化数据的异常特征向量用(Wal,W2,i)表示,j代表结构化数据异常簇个数,w代表第个异常簇在结构数据库中的比重,向量空间模型中结构化数据异常簇之间的相似2IMFi.(0)+IMF2.()度11表达式:(3)Sim(Q)=(4)式(11)中,w;代表结构化数据异常簇频率12。通过概率设定阈值,完成异常数据的判断。4实验检测与分析为了验证提出的基于改进随机森林的海量结构化数据异常辨识算法有效性,选择因子分析异常辨识算法与三维卷积神经网络算法进行对比实验。实验的基础使用Windo
15、ws10系统,在仿真软件中设定二叉树为10 0,数据样本量为40 0 GB。为了更深程度地对结构化数据进行异常点辨识,对结构Zf()(5)1工T微型电脑应用2 0 2 3年第39 卷第11期2ln(em/d)+/2mpej-1化数据中的特征值与梯度值的变化曲线进行实验分析。分析图1中的结构化数据特征值变化曲线可知,当时间周期为7、9、10 的情况下,结构化数据特征值高于告警值,这说明结构化数据可能存在异常问题,因此这些数据中可能存在异常数据,非常适合进行后续实验。分析图2 中的结果可(6)知,所有周期的结构化数据梯度值均位于下告警值上方,且周期为8 的情况下结构化数据梯度值超过了上告警值,说明
16、非结构数据集合中的异常特征显著,这种幅度突增的关系显示了结构化数据存在异常点,以此为基础进行实验测试所得的结果具备真实性和可靠性。海量结构化数据异常辨识精准度表示被正确标注为异(7)常的数据在所有被标识为异常的数据中的比例,其中异常数据总量为50 0 0 个,则3种方法的异常数据辨识数量如表1所示。.157.n(1/)(10)(11)Microcomputer Applications Vol.39,No.11,20232000r1800告警值1600140012001000800600400200012345678 9101112时间周期图1结构化数据特征值变化曲线1000上告警值-下告警值
17、800二结构数据梯度值6004002000$-200-400-600-800-10002345789101112时间周期图2结构化数据梯度值变化曲线表13种方法的异常数据辨识数量实验次数所提算法因子分析算法三维卷积神经网络算法204605404605604750804605100460512046051404605160460518046052004790结合上述数据得出3种算法的海量结构化数据异常辨识精准度对比结果,具体如图3所示。1009590858075706560555020406080100120140160180200实验次数/次图3三种方法的辨识精准度对比结果分析图3中的数据可知
18、,随着实验次数的增加,3种算法的海量结构化数据异常辨识精准度均呈现显著的波动变化趋势。因子分析算法与三维卷积神经网络算法的辨识精准度都相对较低,且曲线浮动过于不稳定,精准度水平并不高。其中,因子分析算法的辨识精准度最大值为7 4.7%,最小值研究与设计为6 1.9%;三维卷积神经网络算法的辨识精准度最大值为结构数据特征值81.2%,最小值为6 8.4%。与实验对比算法相比,所提算法的异常数据辩识精准度最高,辩识精准度最高达到了95.8%,且精准度曲线相对稳定,这是由于所提算法使用随机选择特征子集增加了结构化数据中决策树的随机性,确定了异常范围,进一步提高了异常数据辨识精准度。3种算法的异常数据
19、辨识耗时数据如表2 所示。一表2 异常数据辨识耗时数据数据量/所提算法/GBmin500.481000.771501.522001.792502.343002.52O3504001为了更为清晰的看到3种算法的辨识耗时的变化趋势,结合上述数据绘制辨识耗时对比结果图像,具体如图4所示。98F因子分析算法37354060358240603582397535823880368039103660374036603740366036953095342030953420因子分析算法三维卷积神经网络算法一一所提算法微型电脑应用2 0 2 3年第39 卷第11期因子分析三维卷积神经算法/min网络算法/min1
20、.520.762.641.853.923.025.744.015.324.595.724.512.966.013.566.65一所提算法一一三维卷积神经网络算法7/6F54320501001502002500300350400结构化数据量/GB图43种方法的辨识耗时对比结果分析图4中的结果可知,随着结构化数据量的增加,3种算法的辨识耗时均呈现上升趋势。当结构化数据量为10 0 G的情况下,所提算法的辨识耗时为0.7 7 min,因子分析算法的辨识耗时为2.6 4 min,三维卷积神经网络算法的辨识耗时为1.8 5min;当结构化数据量为2 0 0 G的情况下,所提算法的辨识耗时为1.7 9 m
21、in,因子分析算法的辨识耗时为5.74min,三维卷积神经网络算法的辨识耗时为4.0 1min;当结构化数据量为30 0 G的情况下,所提算法的辨识耗时为2.52min,因子分析算法的辨识耗时为5.7 2 min,三维卷积神经网络算法的辨识耗时为4.51min;当结构化数据量为400G的情况下,所提算法的辨识耗时为2.52 min,因子分析算法的辨识耗时为5.7 2 min,三维卷积神经网络算法的辨识耗时为4.51min。综合来看,所提算法的辨识耗时更短、效率更高。5总结为了在海量数据中精准辨识数据结构化数据异常,其首要工作就是解决原始结构化数据中存在外界环境噪声干扰.158.5.396.32
22、Microcomputer Applications Vol.39,No.11,2023的问题。由于原始数据中有大量噪声数据,通过对互补集合经验模态分解方法进行噪声点去除,在此基础上通过改进随机深林模型确定异常点范围,凭借局部敏感哈希算法对结构化数据异常点进行异常度量,可以有效辨识结构化数据中的异常点。实验结果证明,该算法的辨识精准率高、时间短,具有较强的适用性,可以提高海量结构化数据网络的安全性,有效避免数据错误和异常对用户造成影响。1孙一浩,肖先勇,张文海,等.基于伪异常点辨识的关口电能表计量数据异常研究J.电网技术,2 0 2 1,45(11):4568-4577.2文旭,王浩,黄刚,等
23、。基于因子分析的母线负荷异常数据辨识方法J.重庆大学学报,2 0 2 1,44(8):91-102.3殷浩然,苗世洪,韩估,等.基于三维卷积神经网络的配电物联网异常辨识方法J.电力系统自动化,2022,46(1):42-50.4班爱玲,周恺.具有白噪声的随机格点系统的随机吸引子的Kolmogorov熵J.应用数学和力学,2 0 2 1,42(7):735-740.(上接第155页)大可达到2.2 4%,在第一组数据集的线损计算误差最小为0.42%。该研究系统的线损分析模型整体误差在1.0%以下,在第四组数据集中的线损计算误差最小为0%,在第二组数据集中的计算误差最大为0.8 1%。4总结本文设
24、计出民航10 kV供配电线路的自动化主站系统,对配电线路的供电量、售电量、损耗电量、线损率等各类线损相关数据进行存储。根据所获得的配电线路相关电力数据进行统计分析,对配电线路结构进行优化,使用线损分析模型计算线路线损率,并分析异常线损线路,识别对应的线损异常原因。系统不仅可以提高线损异常分析与配电线路优化配置的工作效率,并实现自动化主站对线路线损的精细化管理。供电企业更加注重配电网络系统中出现的降损问题,在以后工作中系统还需建立更加完善的线损管理制度,合理运用降损技术,并加快识别异常线损线路的效率。1陈佳瑜,夏,施灵,等.基于多系统交互的电缆线路同期线损率异常分析J.电气应用,2 0 2 2,
25、41(3):67-73.2 梁梁学雄.基于台区线损分析平台的异常线损分析研究JJ.粘接,2 0 2 1,47(8):16 2-16 5.3般涛,薛阳,杨艺宁,等.基于向量自回归模型的高损线路窃电检测J.中国电机工程学报,2 0 2 2,42(3):1015-1024.4宰红斌,刘建国,唐保国,等.基于WSN的输电线路研究与设计5王王凡超,丁世飞,基于广泛激活深度残差网络的图像超分辨率重建J.智能系统学报,2 0 2 2,17(2):440-446.6林云,黄桢航,高凡.扩散式变阶数最大相关熵准则算法.计算机科学,2 0 2 1,48(5):2 6 3-2 6 9.7杨建华,韩帅,张帅,等.强噪
26、声背景下滚动轴承微弱故障特征信号的经验模态分解J.振动工程学报,2020,33(3):582-589.参考文献8翟岳,郭改枝.基于经验模态分解和小波降噪的漏水信号滤波方法.内蒙古师范大学学报(自然科学汉文版),2 0 2 3,52(3):2 6 9-2 7 5.9 焦晨晨,李松林,张晓平,等.高斯投影变形优化J.测绘科学,2 0 2 2,47(2):39-46.10常硕,张彦春。基于袋外预测和扩展空间的随机森林改进算法J.计算机工程,2 0 2 2,48(3):1-9.11王劲博.基于人工智能的高维数据异常挖掘方法研究J.信息与电脑(理论版),2 0 2 2,34(7):2 0 7-2 0 9
27、.12陈婷,许睿,孟维丽娅,等.基于孤立森林算法的电力营销数据异常识别J.微型电脑应用,2 0 2 2,38(6):75-78.(收稿日期:2 0 2 3-0 5-30)状态监测与数据采集跨层优化方法J.电气工程学报,2 0 2 1,16(3):16 1-16 9.5QIN H Q,LIU J F,GUAN Y Q.Line Loss PredictionBased on Particle Swarm Optimization Combined withExtreme Learning MachineJJ.Journal of Physics:Conference Series,2021,18
28、02(3):032087.格日勒。基于多电平换流器的直流配电网极间短路故障保护分析J微型电脑应用,2 0 2 1,37(4):170-172.7黄宇新.基于单亲遗传算法的多阶段主动配电网线路优化规划模型J.电工技术,2 0 2 2(1):49-51.8周王峰,李勇,郭秀,等.基于DAE-LSTM神经网络的配电网日线损率预测J.电力系统保护与控制,2021,49(17):48-56.9 LI Y A,LIU J,T A N H A,e t a l.Ca l c u l a t i o n M e t h o dof Line Loss Rate of Photovoltaic Station B
29、ased onPCA-GRNNLJJ.Journal of Physics:Conference Se-ries,2021,1754(1):012201.10】A LA M T,A LM U T A IR IA F,SA M SU ZZA M A N参考文献M,et al.Metamaterial Array Based Meander LinePlanar Antenna for Cube Satellite CommunicationJ.Scientific Reports,2021,11(1):14087.11白剑锋.基于ATP-EMTP的10 0 0 kV交流同塔双回输电线路线损分析J.东北电力技术,2 0 2 1,42(1:1-5.12常洪亮,乔子,廖文错,等。基于模糊目标函数的配电站电压实时监控技术J微型电脑应用,2 0 2 1,37(9):193-196.(收稿日期:2 0 2 2-0 4-19).159.微型电脑应用2 0 2 3年第39 卷第11期