1、第 卷 第 期 年 月传 感 技 术 学 报 .项目来源:年浙江省公益技术研究计划项目();年教育部产学合作协同育人项目()收稿日期:修改日期:,(,;,):,:;:;:云框架超大规模资源处理下无线传感网络数据异常检测李红映,张天荣(浙江农林大学信息与教育技术中心,浙江 杭州;浙江树人大学信息化建设处,浙江 杭州)摘 要:为解决无线传感网络数据异常检测方法精度低、网络能量消耗大等问题,提出基于云框架的大规模无线传感网络数据异常检测方法。在云框架超大规模资源处理下,通过自适应过采样法消除冗余数据;运用数据集成、标准化等预处理数据样本,计算协方差矩阵,从高到低排列特征矢量贡献率;采用二进制粒子群方
2、法优化初始森林中的孤立树,挑选初始森林中精度最高、差异度最大的孤立树组建最佳孤立森林,通过异常分数法检测数据特征异常情况,输出对应样本异常概率。实验部分对所提方法、图信号处理法和分层聚合法进行检测率、虚警率、接电能耗、耗时等指标对比,结果表明,所提方法有效降低了节点能耗,数据异常检测速率快、正确率高,具备优秀的适用性与可靠性。关键词:云框架;无线传感网络;异常检测;孤立森林;数据预处理中图分类号:文献标识码:文章编号:()得益于微型计算机技术与无线通信技术的快速发展,无线传感器网络应运而生,作为人类从物理世界得到数据信息的关键工具,在农业、工业方面得到广泛应用。但无线传感网络节点资源有限,极易
3、受外界环境影响或者遭受攻击者的恶意入侵,导致数据被篡改,即便密码、安全路由等技术能一定程度上增强网络的安全性,但依旧缺少可靠方法检测网络数据异常情况,很难保证无线传感网络应用的有效性。怎样快速精准地完成数据异常检测,是现阶段传感网络安全领域的热门问题。近年来,传感器数据流异常检测作为监控系统的基本组成部分,受到越来越多的关注。传统的基于统计的异常检测方法不能准确识别出与正常数据分布相似的异常数据。随着机器学习技术的发展,为了实现准确高效的异常检测,基于聚类、卷积神经网络和循环神经网络的无监督、监督和半监督异常检测算法不断被提出。相关领域学者对此展开了研究。卢光跃等依据传感器方位特点组建图信号传
4、 感 技 术 学 报第 卷模型,使用图信号低通滤波前后的平滑度之比获得统计检验量,利用统计检验量和判决门限完成异常节点评估。但该方法需要较大的数据样本作为训练集,计算效率会受到一定负面影响。等在节点层采用 方法聚类数据,通过 近邻算法把正常簇信息返回到底层节点,以此划分异常数据。但此方法着重分析数据的空间相关性,没有融合数据流统计特征,异常检测精度不高。本文提出一种基于云框架的大规模无线传感网络数据异常检测方法。为确保数据完整性,在云框架下实施无线传感网络数据采集,预处理数据并提取特征点,通过改进孤立森林算法解决异常数据检测计算复杂、能耗多等问题,在仿真实验中验证了所提方法的实用性。基于云框架
5、的无线传感网络数据采集无线传感网络信号信噪比低,采集到的数据频带位置变动较多,需要预先平滑处理数据的边缘频率分布。云框架下,将无线传感网络数据的边缘频率分布矢量表示为:()()()()?()()()式中:代表局部方差均值,()为数据点方差,()是边缘频率波动临界值。倘若无线传感网络数据特征样本点是,将数据处理范围内的数据特征样本点看作参照数据,运用模糊规则描述传感网络中的数据点有效距离,记作:()()式中:表示模糊指数,()代表两个相邻数据点的距离均值。数据采集时,冗余数据会严重干扰正常数据的采集与处理,为最大限度消除无线传感网络数据采集时的外界干扰,准确提取无线传感网络实时信息,在云框架基础
6、上完成数据采集工作。云框架能处理超大规模资源数据,不同板块之间互相配合,用户利用终端系统就能获得所需服务,借助云端进行无线传感网络信息采集与处理。云框架全局结构如图 所示。在云框架内采用自适应过采样方法,依照冗余数据本身的分布特点产生冗余数据集合,剔除该集合即可获得干净的网络数据信息。推算全部小类样本需要产生的数据样本个数,针对每个小类样本,使用欧式距离计算样本的相邻间距,获得冗余图 云框架示意图数据的密度值:()式中:表示第 类样本的在相邻间距内属于大类样本的样本值,为常数。由此,将冗余数据量定义成:()是消除冗余数据的最佳状态,在此前提下,将云框架下无线传感网络数据采集解析式描述为:()式
7、中:是无线传感网络节点总和,是样本点与相邻点之间的权重。无线传感网络数据预处理与特征提取 数据预处理数据预处理是把数据转变成容易聚类的模式,便于后续异常数据分类与检测。预处理包含数据集成、标准化与归一化三个步骤。数据集成就是将不同来源、特征的数据汇聚成大数据的过程,解决数据的分散性与异构性。利用数据仓库技术处理数据分散性,此技术核心作用是把分散在不同数据源内的数据提取至中心数据库,便于操控大规模数据集。数据异构性会在异常数据筛查环节中造成混乱失效的局面,无法确保数据异常检测的可靠性,本文通过制定转换规则来改善异构性弊端。数据格式不同,其权衡标准也不尽相同,会对后续异常检测结果精度造成不良影响。
8、需要对数据实施标准化处理,把初始数据从多元空间变换至统一的标准化空间。这里选用 法实现标准化处理,过程为:推导出数据集 ,的均值?:?()第 期李红映,张天荣:云框架超大规模资源处理下无线传感网络数据异常检测 式中:是数据集内第 个数据,是数据集中的数据总和。使用式()完成对数据集 的标准化处理:?(?)()式中:代表数据集 内第 个数据标准化后的形态。归一化为一种简化运算模式,把有量纲的解析式通过转换变成无量纲解析式。常用的归一化策略涵盖线性函数法、反余切函数法、对数函数法等,本文选用线性函数法内的最大最小值进行归一化处理,让变换后的数值处在,区间,计算过程为:()式中:是数据集 内第 个数
9、据归一化后的表达形式,是数据集的最大值,是数据集的最小值。特征提取数据特征提取是获取全部待检测数据的实际特征,即特征矢量,运用特征矢量划分正常数据和异常数据。主成分分析是特征提取中使用次数最多的方法之一,在初始数据集内挑选较少但具备代表性的变量。主成分分析法下数据特征提取流程如下:倘若具备 个样本点,第 个样本是,均值向量矩阵是,则协方差矩阵表达式为:()协方差矩阵 中,前 个最大非零特征值相对的标准正交特征矢量是,将标准正交特征矢量推导公式记作:()式中:是正交特征矢量总和,为矩阵特征值。利用式()计算各特征的贡献率,从高到低排列特征矢量,并将最大的特征矢量值看作数据特征。()改进孤立森林下
10、数据异常检测方法孤立森林为一种适用于多组持续异常数据检测的算法。利用统计分析可知,把多组数据散布于相同数据空间内,该空间数据分布范围即为小概率区域,在该区域可能产生较小的点,此类数据即为异常数据。将该方法应用在无线传感网络异常数据检测中,为异常数据分析领域提供全新的解决思路。孤立森林检测精度依赖孤立树的大量集成,训练孤立树过程中会发生计算效率低、内存消耗多的现象。在方法原有基础上,代入二进制粒子群优化方法改进初始森林中的孤立树,下面为详细运算流程:粒子群法表示是在一个初始化粒子群内,各粒子的方位与速度随机生成,粒子方位表示当前解,速率表示粒子当前解和下个解的向量方向。解空间内,粒子依照历史移动
11、经验不间断调节速率探寻最优解。在 维空间内任意组建一组粒子,当前迭代数量是,为粒子群中的一个粒子,粒子当前活动速率为。将粒子速率与方位的更新过程描述为:()()()()式中:、依次表示个体极值与群体极值,为惯性权重,、为历史经验下设置的常数,、是,取值范围中的随机数。孤立森林算法中,每棵树的结构方式相同,但因训练数据或参数的差异,树的检测性能各不相等。假设森林中的孤立树为,使用式()和式()来分析每棵孤立树之间的差异度与全部孤立树的差异度均值:,()?,()式中:、依次为树、处于样本空间内的正确检验样本数量,是两个孤立树重合的正确检测的样本数量,、?的值和孤立树间的差异度呈正相关关联。全面考虑
12、无线传感数据异常检测的准确度与差异度需求,设计一个能够均衡两种需求元素的适应度函数:()?()式中:、依次代表准确度与差异度的权重,?是当前参加集成的孤立树分类精度均值,?是当前参加集成的孤立树分类差异度均值。把精度与差异度最高的树组建成一个最佳孤立森林,使用异常分数模式来定义数据异常的概率,将异常分数拟作森林的路径,其最高值和数据划分数量相关。假设路径长度均值为(),孤立树传 感 技 术 学 报第 卷和搜索树具备相同结构,叶子节点的长度均值和孤立树的期望值相等。这里采用搜索树的期望长度均值来推算孤立树的长度均值,计算公式为:()()()()式中:是一个非零常数,代表数据特征个数,()是路径长
13、度均值。归一化计算(),获得异常分数 的表达式:()()()式中:表示权重矢量,()是孤立森林内每个孤立树距离的均值。()值越接近,异常分数的值越趋近于;()值与()越相近,的值越趋近于。异常分数接近,证明数据样本的异常概率较高,反之异常分数结果小于,样本出现异常的概率较小,完成高精度数据异常检测目标。图 温室 浓度测定值变化情况 仿真实验 实验环境在实验分析中,以农业领域中的温室大棚为例,传统多点环境参数监测系统通常利用有线方法将环境参数传递至监控中心,有线通信需要布线,提高了系统设计、安装与后期维护成本。运用无线传感网络后,精简了通信与通电线路的铺设,对增强温室生产管理水平具备关键意义。为
14、表明所提方法可靠性,以温室大棚为例,在大棚内创建二氧化碳()的无线传感网络监测系统,实时调节大棚环境参数,将无线传感网络监测系统的动态函数模型表示为:()()式中:是温室大棚中原始 浓度,()是大棚中单位面积植物利用光合作用吸收 对浓度的直接影响。浓度会伴随时间流逝产生动态变化,以天为单位,每隔 进行一次 浓度监测,得到测定值,在温室中的浓度变化如图 所示。设定大棚的区域面积为 ,区域中匀称分布 个传感器节点,各节点方位固定不变,方法性能检测平台为,实验对比方法为文献图信号处理法和文献分层聚合法。实验结果分析检测率表示可以把异常节点精准检测出的几率,虚警率表示正常节点被判定为异常节点的几率,一
15、个优秀的数据异常检测方法应当具备高检测率与低虚警率,才能确保最终输出结果的真实性。节点异常率是传感器节点正常工作时发生异常检测的概率。把节点异常率作为实验指标,异常率取值为,查看三种方法在不同节点异常率下数据异常检测性能优劣,其检测率与虚警率仿真结果分别见图 和图。图 种方法数据异常计算检测率对比图 种方法数据异常检测虚警率对比观察图 和图 看出,检测率数量在 时,本文方法能够达到 的检测率,图信号处理法检测率为,分层聚合法为。随着节点异常率持续升高,三种方法检测率呈现下降状态,虚警率呈现上升趋势,但本文方法检测正确率要显著高于图信号处理法和分层聚合法,这是因为所提方法在云框架下使用自适应过采
16、样法消除无线传感网络数据中的冗余信息,很好地提升异常检测精度。接下来分析采用三种方法进行数据异常检测时损耗的节点能量大小,结果如图 所示。从图 可知,伴随实验数量逐层递增,节点能量消耗缓慢上升,其中本文方法能耗最少,分层聚合法次之,图信号处理法能耗最高,证明本文方法可在最小能耗代价下实现传感数据实时异常监控需求。第 期李红映,张天荣:云框架超大规模资源处理下无线传感网络数据异常检测 图 种方法异常检测节点能耗对比 图 为三种方法数据异常检测时间对比,实验量为 次,表中结果为各周期的耗时平均值。从图 看到,本文方法数据异常检测耗时波动程度较小,计算稳定性强,与两个文献方法相比,检测时长最短,具备
17、极高的适用性。图 种方法异常检测耗时对比 结论融合云框架思想,设计一种高精度无线传感网络数据异常检测方法。所提方法在检测率、虚警率、节点能耗、耗时数据对比中,有效弥补传感网络节点储存受限的缺点,不会受到数据分布规律动态变化的负面影响,计算效率高,具有极高的实用性。该方法在对离散型异常与固定型异常数据的处理上,通过实验对比,表现出优秀的检测成效,但对攻击者仿照正常数据流伪造的异常信息检测效果稳定性略差,接下来通过对比更长的过往数据流来改进此点不足。参考文献:张颖,杨广媛 基于 算法优化无线传感网络拓扑结构的方法 电子与信息学报,():彭春燕,杜秀娟 水声传感器网络基于深度信息的安全路由协议 计算
18、机工程与应用,():卢光跃,周亮,吕少卿,等 基于图信号处理的无线传感器网络异常节点检测算法 计算机应用,():,():余华兵,郑恩明,陈新华 基于相参累积预处理的空间谱估计方法 上海交通大学学报,():陈通,樊蓓蓓,陈东萍 基于双重模糊模拟的直觉模糊向量关联规则挖掘 计算机集成制造系统,():张勇,郭骏,刘金波,等 调控云平台 层技术架构设计和关键技术 电力系统自动化,():董宏成,赵学华,赵成,等 基于 聚类的自适应过采样技术 计算机工程与设计,():陶玉杰,由巧俐,李晓萍 低维空间上分片线性函数的逼近因子与剖分数 东北师大学报(自然科学版),():阮皓麟,王斌会 稳健稀疏主成分分析法及其
19、实证研究 数理统计与管理,():黄远程,薛园园,李朋飞 高光谱影像子空间分析孤立森林异常目标探测方法 测绘学报,():刘凯,汤国安,江岭,等 数字地形分析中邻域统计型算法并行化方法及效率分析 地理与地理信息科学,():,邱飞岳,王京京 自适应学习因子的混沌二进制粒子群优化算法 浙江工业大学学报,():赵新华,范振东,何宇,等 基于数据重构与孤立森林法的大坝自动化监测数据异常检测方法 中国农村水利水电,():张定华,胡祎波,曹国彦,等 面向工业网络通信安全的数据流特征分析 西北工业大学学报,():,:,():,():,():,:传 感 技 术 学 报第 卷 :,:李红映(),女,汉族,吉林白山人,硕士,高级工程师,本文通信作者,研究方向:计算机网络、网络信息安全、网络性能分析与协议设计、网络管理与安全、数据挖掘、机器学习、大数据研究等,;张天荣(),男,汉族,甘肃镇原人,硕士,高级工程师,本文通信作者,研究方向:云计算、新媒体技术、大数据挖掘等。