1、书书书第 卷 第 期 年 月沈阳工业大学学报 收稿日期:基金项目:国家自然科学基金项目()。作者简介:李勇(),男,河北任丘人,高级工程师,硕士,主要从事信息安全和 运维等方面的研究。檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪殏殏殏殏信息科学与工程 :电力通信链路模拟数据智能融合方法李勇,韩俊飞,李秀芬,王鹏,王蓓(内蒙古电力科学研究院 信息通信技术研究所,内蒙古 呼和浩特 )摘要:为了提高电力通信系统数据融合时的节点存活率,提高网络连通性,提出了基于异构数据源的电力通信链路模拟数据智能融合方法。利用最小二乘残差估计法辨别噪声数据,识别异构数据中的不良数据。通过 聚类获取目标平均值,实现数据离散化并消除
2、噪声。使用频繁项集的关联规则确定置信度阈值并挖掘不低于该阈值的数据。采用深度受限玻尔兹曼机算法将不同类型模拟数据映射到同一矢量空间内,实现智能融合。仿真实验结果表明,该数据融合方法的平均系统能量消耗为 ,网络连通度范围为 ,达到了提高节点存活率以及提升网络连通性的目的。关键词:异构数据源;电力通信;链路模拟;智能融合;波尔曼兹机;数据融合;节点存活率中图分类号:文献标志码:文章编号:(),(,):,:;电力通信是电力系统的关键构成部分,其链路可靠性直接影响系统安全运行。随着智能电网的全面发展,通信信息量呈爆炸式增长,对通信链路产生多种威胁 。在电力通信中存在不同种类的异构数据,根据数据来源可分
3、为防火墙数据、入侵检测数据等,这些数据类型是为满足不同安全需求设置的,其能够记录不同通信信息与用户行为数据,所以这些数据之间具有异构属性 。由于攻击行为潜伏时间长且持久,难以从单独的链路模拟数据中发现威胁,入侵者的全部入侵痕迹分别记录在不同日志中,因此需要对数据进行融合,通过分析多类型数据能够快速发现通信链路中存在的威胁,有助于尽早采取应对措施。等 提出一种新的电力系统数据融合模型,旨在平衡多路径数据融合的能量效率和电力系统性能的可靠运行。模型在数据融合阶段考虑了整个过程,以保证数据质量。利用 节点基准测试平台进行了仿真研究,证实系统的可靠运行。任秀丽等 提出了基于分簇的模糊加权数据融合方法,
4、在簇中使用模糊逻辑控制器对节点可信度进行研究,以保证数据可靠性;分析数据优先级,减少延时,在簇内构建模糊加权矩阵来提高数据融合准确度。上述两种方法在融合过程中网络的连通性较差,网络可靠性有待提高,为此本文利用深度波尔曼兹机算法对异构数据源中的链路模拟数据进行智能融合。将数据融合当作是集成的高级阶段,将完整性较强、准确性较高的数据进行综合,其核心为协调优化处理。深度受限波尔曼兹机包括多层神经元,通过层次无监督贪婪的训练方式,将获得的结果当作初始值。经过向量映射,解决数据融合问题,提高学习性能。仿真实验表明,该方法进一步提高了数据融合完整性与隐私保护性。电力通信链路模拟数据预处理 异构数据源内不良
5、数据识别电力通信异构数据源中,传感器故障、环境恶化等原因均能生成噪声数据且影响融合效果,从而降低对通信链路模拟结果分析的准确性,因此必须对噪声数据进行识别,确保数据质量。传统识别噪声数据的方法大多依靠对电力系统运行状态的估计,由于辨别次数较多,导致了运算量增加。若将大数据技术与该方法相结合,则可改善上述弊端,满足异构数据处理需求。预测电力通信系统状态的表达式为 ()式中:为状态变量;为电力系统随机变量;为预测过程中满足正态分布的误差。估计系统状态的方法较多,本文利用最小二乘法进行估计。因预测误差正负不能确定,为降低运算复杂度,将目标函数 转换为预测误差平方的代数和 ,其表达式为 ()式中,为运
6、算次数。为满足预测精度要求,引入权重概念确保权重取值与预测精度之间呈正相关关系,因此目标函数修改为 ()式中,为预测权重。最小二乘准则核心是当目标函数 最小时,估计值为最优,则式()可进一步表示为()式中:为预测方差;为对角元素。测量值可表示为 ()式中,为观察值。测量值残差 的计算表达式为 ()其中,的残差灵敏度雅克比矩阵为()()式中,为残差灵敏度,其表达式为 ()式中,为 维正常测量误差量,则加权残差表达式为 槡()在残差搜索过程中需要设定阈值来明确数据迭代停止条件 ,其计算表达式为 槡()式中:为噪声水平;为数据长度。残差搜索辨别的主要过程如图 所示。图 残差搜索流程图 获取全部数据的
7、测量残差后,将高于设定阈值的归纳在一个集合中,并按照顺序依次处理,每进行一次处理后,将剩下的数据重新估计,直至不出现高于阈值的数据为止,这样可有效辨别噪声数据。第 期李勇,等:电力通信链路模拟数据智能融合方法 数据离散化在辨别出噪声数据后,需要对数据做离散化处理,从而消除噪声数据。此外,还能将有效模拟数据转换为可以进行关联挖掘的数据。离散化数据的基本方法是:将连续数据分割成若干份,通过不同标志区分不同区间,这样即可实现连续数据之间的离散化 。利用等级符号代替连续数据,能够降低属性值个数。经过离散处理后,数据集合层次更加清晰,可以直接用于数据挖掘。该算法中存在两个关键参数,分别是 与 ,表示样本
8、数量,表示聚类数量,即将 个数据按目标分割成 类。分割过程如下:利用随机法选取表示 个聚类中心的 个目标,计算出剩余数据目标与聚类中心之间距离;将距离最近作为划分准则,此处的距离包括欧式距离、马氏距离等,需要结合样本特性和聚类要求确定;再次算出每类中的目标平均值,将其作为新的聚类中心。不停迭代此过程,直至符合收敛要求为止。本文以欧式距离为例,假设目标集合 ,(,),样本 与的欧式距离表示为(,)()()()()平方和准则函数表达式为 (珋)()式中:为聚类中心;珋为每类样本平均值。经过反复迭代 完成离散化处理,且去除噪声数据。链路模拟数据智能融合电网规模的不断扩大使通信系统日益扩容,对链路安全
9、提出了更高要求。融合模拟数据、构建统一管控平台是改善电网运行的重要手段,能够提高工作效率,因此有必要进行数据融合。数据挖掘电力通信链路模拟数据挖掘过程为:)明确挖掘目标。该环节具有指导作用,明确目标才能找准方向,从而实现挖掘的目的。)数据整理。在明确目标后必须掌握背景信息,将海量数据储存在对应数据库中,为挖掘做准备。)数据挖掘。将数据本身具有的特性与用户需求当作依据,选取合理的挖掘算法。)分析与评估。若挖掘结果冗余无法满足需求,需将其删除并再次进行步骤 );若符合要求,则通过自然语言的形式表示出结果。聚类挖掘可以分析数据目标之间的相似性,结合相似程度对数据进行分类,相同类数据存在较高相似性;反
10、之,相似程度较低。挖掘本质是监督学习,对训练集合进行分析,挖掘分类规则,并按照规则估计新的数据类别。关联规则代表数据库中不同事物之间存在的关系。针对数据库 ,利用关联规则挖掘的基本思路为:设置置信度阈值,并将高于该阈值的数据放入相同集合中 ,并称其为频繁项集;使用频繁项集的关联规则确定置信度阈值 ,针对每个频繁属性集合 ,找到其全部非空子集 。定义 ()为数据库中支持的数量,若()(),则形成关联规则 。关联规则挖掘过程为:假设 ,为 个不同布尔型属性集合;,为具有 个类型的数据库。其中,为 的第 个类型,其属于 中某组布尔属性集合,。针对项集 ,若 ,则将 当作 的项目集合;若又存在 ,则说
11、明 包含 。关联规则形式为 ,与 均属于 的项集,且有 。()是数据库中支持 的数量,则 的支持度表示为 (),定义为()。关联规则 的置信度描述为 (),将其定义为()()。至此实现了电力通信链路的模拟数据挖掘,为数据智能融合奠定了基础。数据智能融合在电力通信系统内,不同日志可能含有同样字段,例如时间等信息;也可能含有特殊字段,比如攻击类型与用户操作等。由于这些日志字段不同,大小也存在差距,所以利用同样字段表示全部日志不够合理。为使表示日志种类的格式统一,通过深度受限玻尔兹曼机将不同种类日志归纳在同一个矢量空间内,从而实现链路模拟数据的智能融合,具体过程如下:)随机选择一个通信链路模拟数据,
12、并将其转换为二进制矢量 ,针对一个包含 个字段的日志 (,),其第 ()个字段表示为。利用二进制形式表示,且将 全部的二进制字段构成二进制数值。如当 ,(,),且 包含的两个字段均使用八位二进制描述,则变换后的二进制表示为 ,的长度是 ()。)对不同长度日志进行处理,使其长度相等。沈阳工业大学学报第 卷若日志包含两种格式,当 ,长度是 ;当 ,的长度是 ,则将 变换为 ,此时 的长度也为 。)通过深度受限波尔兹曼机将转变后的日志矢量 映射到长度为 ()的矢量空间内,映射结构如图 所示。图 映射结构示意图 图 中,输入层(,)是转换后的 维二进制量,其中任意维度值()的值为 或;输出层(,)属于
13、经过映射的二进制量 ,任意维度值 同样为 或。整体的波尔兹曼机映射结构可看作是一个具有 层的神经网络,任意一层均为一个波尔兹曼机 。假设输入层为(,),隐含层表示为(,),则两者之间应满足 (,;)()式中:为先验参数;(,;)为受限波尔兹曼机能量函数;为配分函数,其表达式为 (,;)()在联合分布函数 中,若 是实现设定的,则能够获得 的概率分布情况,即(;)(;)()()按照上述过程,结合输入量 能够得到首个隐含层量值,将其当作输入量,从而得到第二个隐含层量值,以此类推,直至得到第 个隐含层的矢量值。在利用深度受限波尔曼兹机对不同通信链路模拟数据做向量映射过程中,完成异构数据智能融合。其有
14、助于系统扩充升级,提高电网管制水平,为保障电力通信安全发挥作用。仿真实验与分析为证明所提基于异构数据源的电力通信链路模拟数据智能融合方法的性能,以某电力单位链路模拟的日志数据作为实验样本,对所提算法进行测试。在 仿真软件中评估数据融合算法的性能。仿真回合次数为 ,通信链路节点为 ,通信链路节点将数据包从源节点发送到融合节点,数据包的容量为 。主要从节点存活率、数据融合总能量消耗及网络连通性方面与文献 和文献 的方法进行对比分析。在仿真平台构建一个由 个节点组成的通信网络,通过减少节点之间的距离来增加链路的比特误码率 ()。将实际环境中非均匀噪声方差定义为 ()式中:为自由度为 的卡方分布;为通
15、信网络噪声方差阈值;为标称最小值的潜在变化。通过该方式计算噪声方差,以便在同一通信网络传感器之间创建异类感应条件。将两个连续节点之间的距离从 更改为 。设置 和 来生成非均匀噪声方差,方差上限为 ,并设置 ,进行 次独立聚类,矢量映射长度设置为 。节点存活率对比链路节点存活率是判断电力通信数据融合节点消耗能量的一个指标。模拟时间基于数据传输的次数获得。在使用 种算法进行网络模拟过程中,随着次数的增加,异构传感器网络中幸存节点的数量减少,对比实验结果如图 所示。图 节点存活率的对比 由图 可知,整体节点存活数量均随仿真回合次数的增加而降低 在 次仿真实验中,文献 方法的平均节点存活数量为 个;文
16、献 方法的平均存活数量为 个;本文方法的节点存活数量略高于两种对比文献方法,平均为第 期李勇,等:电力通信链路模拟数据智能融合方法 个。本文利用 聚类算法获取每类目标的平均值后,经反复迭代消除噪声数据,从而提高了节点的存活率。数据融合系统总能量消耗电力通信链路模拟数据融合过程中会消耗一定系统能量,为此本文以系统总能量消耗作为实验指标,验证本文方法数据融合的性能。基于已给出的实验环境,在仿真软件中计算 内数据融合系统总能量消耗情况,实验结果如图 所示。图 数据融合能量消耗对比 由图 可以看出,随着数据融合时间的增加,种方法系统总能量消耗均随之增加。文献 方法的平均总能量消耗为 ;文献 方法的平均
17、总能量消耗为 ;而本文方法的平均总能量消耗为 ,所提方法能够精准地去除冗余数据,可以有效降低系统的能量消耗。网络连通性比较为了验证电力通信链路数据融合方法在网络连通性方面的性能,以连接系数作为指标进行判断,其计算表达式为()式中:为通信范围内相邻节点的数量;为网络中所有节点的数量。种算法的网络连接性如图 所示。图 网络连通性对比 由图 可以看出,随着仿真回合次数的增加,文献 方法的网络连通度较差,且不稳定,波动幅度较大();文献 方法的网络连通性比较高且稳定,波动范围为 ;本文算法具有最高的网络连通性和整体稳定性,网络连通范围为 ,网络连通性能优异。结束语为适应“互联网 ”战略,积极对电网智能
18、化发展进行创新,本文利用深度波尔曼兹机算法对电力通信链路模拟数据进行智能融合。仿真结果证明,所提方法能确保模拟数据在融合过程中节点存活率较高,平均系统能量消耗较低,仅为 ,且网络连通系数范围为 。研究有助于对链路安全进行分析,从根源上降低风险,提升通信质量。但本文研究的内容仍属于初期研究阶段,其设计理念仍需不断完善,在今后工作中应投入到实际电力通信模拟数据中,根据实际情况对算法作出调整。参考文献():肖勇,钱斌,蔡梓文,等 电力物联网终端非法无线通信链路检测方法 电工技术学报,():(,():)周杨臖,梁朔,俞小勇,等 基于多源异构数据的配电网运行分析平台:系统架构与技术实现 南方电网技术,(
19、):(,():),(),():任秀丽,吉鹏硕 中基于分簇的模糊加权数据融合算法 计算机工程,():(,():)李康 多模态特征融合的网络安全态势评估 电子科技,():(,():)李维松,许伟杰,张涛 基于小波变换阈值去噪算法的改进 计算机仿真,():(,():)沈阳工业大学学报第 卷 刘云,袁浩恒 数据挖掘中并行离散化数据准备优化 四川大学学报(自然科学版),():(,(),():)袁兆祥,余春生 基于 聚类的电力工程数据完整性分析 沈阳工业大学学报,():(,():)蔡中民 多层实时网络加密数据流频繁项集挖掘方法 沈阳工业大学学报,():(,():)孙伟,李鹏宇,杨建平,等 配电泛在物联网无
20、线通信链路可靠性的置信区间预测 电子测量与仪器学报,():(,():)周东青,王玉冰,王星,等 基于深度限制波尔兹曼机的辐射源信号识别 国防科技大学学报,():(,():)杨安锋,赵知劲,陈颖 基于混合受限波尔兹曼机的调制样式识别 杭州电子科技大学学报,():(,():)张光荣,王宝亮,侯永宏 融合标签的实值条件受限波尔兹曼机推荐算法 计算机科学与探索,():(,():)张宇献,陈向文,钱小毅 基于双链量子遗传优化的分类规则挖掘算法 沈阳工业大学学报,():(,():)任永攀 基于受限波尔兹曼机的移动业务预测模型研究与应用 北京:北京邮电大学,(:,)(责任编辑:景勇英文审校:尹淑英)第 期李勇,等:电力通信链路模拟数据智能融合方法