1、引入改进的K-means算法的电缆监测数据优化技术的研究江友华,王润超,王林,陈江伟(上海电力学院,电子与信息工程学院,上海,200090)摘要:分布式光纤是一种新型在线监测技术,能极大程度提高电缆健康状态的监测效率。由于光纤处于复杂环境影 响中,以及分布式节点实时产生庞大的数据群,这对监测数据的处理技术提出了更高的要求。基于传统的数字式平 均法,引入一种改进的k-means聚类算法,实时对各节点产生的数据集处理,能准确的识别因噪声影响而产生的奇 异数据,提高了数据反应的效率和准确性,从而减少了监测系统的漏报和误报现象。现有的实验仿真说明改进的算 法较传统算法在数据处理的准确性和快速性上都有明
2、显的提升。关键词:分布式光纤,数字式平均算法,聚类算法,数据修正 中图分类号:TN818文献标识码:AResearch on Data Optimization Technology of Cable Condition DetectionBased on Developed K-means AlgorithmJIANG Youhua, WANG Runchao, WANG Lin, CHEN Jiangwei(School of Electronic and Information Engineering, Shanghai University of Electric Power, Sha
3、nghai 200090, China)Abstract: Distributed optical fiber is a new type of online monitoring technology, which can greatly improve the efficiency of monitoring the health status of the cable. The fiber is affected in complex environment, and distributed node will produce huge data base in real time, w
4、hich proposed higher requirements of data processing technology. In this paper, based on digital average method, we introduce an improved k-means clustering algorithm, which can process data flow generated by each node, to remove all of singular values generated by noise accurately and improve the e
5、fficiency and accuracy of data feedback. Thanks to the developed algorithm, the phenomenon of misinformation gets ameliorated. The existing simulation results show that the improved algorithm, compared to the traditional algorithm, has significantly improved the accuracy and speed of data processing
6、.Keywords: DTS, Digital average algorithm, Clustering algorithm, Data correction0引言电力电缆的健康状态直接影响到输配电系 统的稳定性。在潮湿、强电流、强电压等恶劣 环境下电缆易发生绝缘老化现象,导致温度过 高,在某些场合下甚至会引发火灾。传统的温 度监测方法如热电偶技术多应用于工控领域 ,温度监测点的布置十分有限,不能实现电 缆的分布式监测;而分布式光纤是一种理想的 电缆状态监测工具,较传统方法无论是在精度 和广度上都大幅提高VI。分布式光纤产生庞大的并带有噪声信号的 原始数据,只有对这些原始数据进行有效的清 洗
7、、识别,才能有效的减少监测系统的漏报 和误报,更加真实的反映电缆的健康状态。文 献5指出的小波分析法去噪效果明显,但是阀 值的选取直接影响到最后的效果,无论在时域 还是频域都会有可能错误的去掉正确的信号 值,从而引起误报和漏报。文献6提出一种采 用互补码DOFRTS光脉冲替代传统单脉冲,从 而改善测量效率。目前关于数据清洗、识别的 大数据的挖掘与处理技术在计算机学科领域得 到大量运用口罚,本文将其引入到电力电缆监测 应用中,采用改进K-means算法以提高DTS(Distributed Temperature System)技术的实用 性。1电力电缆在线监测原理采用一种基于Raman后向散射的
8、DTS技 术9】。光入射到光纤中,光与光纤介质会相互 作用产生非弹性碰撞,即Raman散射。Raman 后向散射光强(anti-stokes和stokes)与温度的 关系如下:/ocl + O.OOSOOAT(1)/ OC1 + 0.00096AT(2)由式(1) (2)可知,anti-stokes散射光在 室温下的灵敏度达0.8%,而stokes散射光为 0.096%,可以认为stokes散射光几乎对温度不 敏感。使用stokes曲线作为参照来解调 anti-stokes曲线,从而获得沿光纤分布的温度 值。温度解调公式为:1 = 1 k n WET To Mv NAT。)(3)式(3)中乂
9、(T)和N,(T)分别是温度为T时,stokes和anti-stokes散射光光子数。T)为 己知的起始温度,为拉曼声子频率;h为普 朗克常量;k为玻尔兹曼常量。在实际应用中, 通过双通道采集到背向散射光(anti-stokes和 stokes)光强后,由式(3)得到分布式节点的 温度数据;然后利用光时域反射技术,确定温 度信息对应的位置,得到被测电缆的温度分布 状态。图1 OTDR原理图光时域反射技术(Optical Time Domain Reflectmeter),简称OTDR)的原理与雷达相似, 故又称为光纤雷达技术。图1展示了 OTDR的 原理,其中H是光纤发生散射的位置;,是时 间
10、间隔,记录的是光脉冲从进入光纤到其散射 光返回远点所经历的时间;是光纤的折射率; C是光在真空中的速度。光脉冲从激光发生器 中摄入光纤,发生散射点的距离可以由式(4)求 得;3(4)2n只要测量并记录时间,就能算出散射点的位 置,也就是被测点的位置。由式(3)和(4)知,电缆各点温度测量 值由起始温度、Raman散射光强以及传输距离 确实定,而光纤在监测获取数据的过程中会受 到各种干扰,同时光子会随着距离的增大而衰 减,数据的真实性受到影响。因此需要采取有 效的数据优化算法以确保数据反应的效率和准 确性,并能通过预设的报警系统对电缆故障进 行预警。2改进的监测数据优化算法 2.1数据传输噪声模
11、型的建立理论上温度值可通过DTS技术得到,但由 于电缆所处的复杂噪声环境,如雨雪日照、电 磁感应、人为因素(车辆通行、偷盗入侵)以 及光波传输过程中损耗等,实际测量值会夹杂 着不确定的噪声,因此实际测量值广为:n广= rn(b + i) (5)i=式(5)中T为被测点的理论温度值,。为 噪声影响因子,为不确定常数。本文研究引 入k-means聚类算法,并结合数字式平均法, 通过算法人为修正数据,使得测量值T无限逼 近与理论值TT T(6)2.2数字式平均算法如图1所示,分布式光纤测温系统通过脉 冲控制检测器中采样开关的通断频率来采集一 个采样周期内整条测温光纤中沿线各点的背向 散射光子强度,然
12、后经过信号处理电路(光电 转换电路、信号放大电路和滤波电路等)得到 原始的测量数据。采样开关的通断使得采集到 的信号只是整条光纤上的离散点,因此需要合 理设置采样频率使得采集系统的空间分辨率达 到一个合理的水平。设一个采样周期内整条测 温光纤共均匀地分布着m个测温点,那么第i次 采样周期内得到这m个点的测量数据 Xj =心如.占.J,一次测量周期内 激光脉冲发射器共发射了 n束测量脉冲,那么一 次测量周期内得到的测量数据为:*11工12如 工17 XjXi Xi2 乂而(7) Xn Xn2 , - * Xnj * - * Xnm式(7)中,孔表示测量的第i个测量脉冲经过第j个测量点时返回的测量
13、数据。数字式平均法是对一次测量周期内每个测 量节点屡次测得的数据分别进行累加并求平 均,得到式(8):兄g,.,珥,r “其中Yf表示一个测量周期内第j个测量节 点的可信测量结果。由于被测信号由确定性的 信号和噪声信号(通常为白噪声)组成,通过 屡次的平均计算后噪声信号的有效值会大大减 少从而减少噪声对真实数据的影响,提高 了数据质量。2.3引入k-means聚类算法的数据优化传统的数字式平均法占用许多存储空间和 大量的采样时间,假设噪声值过大会影响数字平 均结果的准确性。为提高监测效率,假设单纯通 过减少测量周期内发射的光脉冲数虽然可以缩 短测量时间,但采样值过少将无法减弱噪声对 真实值的影
14、响,很难反映出实际温度信息。温 度信号具有不能突变的特点。由于信号中掺杂 了许多非确定性的噪声信号,实际测量的数据 会有许多奇异点,这些点往往与实际温度相差 甚远。如果在累加前选用合适的方法剔除这些 奇异点,可减少累加次数,提高测量效率。K-means是一种数值的,无监督的,非确 定性的,重复性的聚类方法。通过不断训练数 据集中的数据,使得数据点逐渐在确定的N维 空间中归为K类。通过K-means聚类算法对采 样数据进行处理,能够高效的将奇异值(噪声) 与正常值区分开来,再对聚类后正常簇的数据 进行数字式平均。因此能够在保证结果精度的 前提下减少采样的数据量,从而减少系统采样 周期。将每个测量
15、周期内对每个节点的重复采集 的数据定义为一个数据集D,改进的单位节点 监测数据优化算法原理描述如下: 输入:期望聚类中心数K = 3 , 一个数据集 。=4,,.,日,其中包含n个目标数据 (实际应用中将目标数据值设定为400)o输出:测量周期内第j个节点的温度测量值可。步骤:Step2:随机从数据集D中选择3个目标数据作 为初始聚类中心点,针对目标数据的特点,人 为的选取三个点作为初始聚类中心 q = Average(D)。=q +10,c3 =q -10, 分别计算数据集中剩余的数据d; (1 3-k) 和所有聚类中心q(l jk)的欧式距离 d(d,Cj),并且将数据分配给最近的聚类簇j
16、, 存储在以j为标签的数组中;Step2:定义是)诃,=(4.,勺)当前距离每 个聚类中心最近的距离;Step3:更新各个聚类簇的聚类中心勺;Step4:对于数据集中的每个目标数,计算出与 当前聚类中心的欧式距离;a)假设距离小于或等于Disi,那么该数 据保持在原有聚类簇中;b)否那么,重新计算目标数与每个聚类 中心的欧式距离,并分配到最近的 聚类簇。Step5:重复,直到聚类中心不再大幅变化,说 明聚类对象调整结束,聚类准那么已经收敛。Step6:取出簇1中的数据,计算均值,即为某 一测量周期内某一节点的温度测量值g O 3算法可行性验证3.1基于matlab的算法仿真实验实际应用中采集得
17、到的温度数据中含有大 量非确定的噪声,人为模拟产生400组数据, 这是单位测量周期(Is)内一测量节点的温度 数据,数据分布如图2所示,我们期望通过算 法的修正可以得到图3绿色区域的干净数据。 将这些原始温度数据作为算法的输入,通过改 进的算法的修正之后,得到图4,可以发现样 本容量由原始的400变为322,大量奇异值被发生。有效去除。图2单位节点原始数据分布图图3期望修正结果数据图图4算法修正后数据分布图3.2电缆温度测量比照实验为验证改进的数据清洗算法的有效性和可 行性,我们针对单一节点,使用水银温度计、 传统算法的DTS测温以及改进算法的DTS测 温分别对该节点进行屡次测量。为模拟真实环
18、 境,实验时在电缆传输电流为55A时给电缆环 境施加强干扰,测量结果如表1所示。我们认 为水银温度计测量结果为标准值,分别计算两 种算法的DTS测温误差,发现在电缆处于强噪 声环境中时,传统算法DTS测量结果出现了较 大偏差,因此在实际使用中会出现误报情况; 而基于改进算法的DTS测温能很好的将误差 控制在1C以内,有效的抑制系统误报状况的表1温度测量比照试验电缆传输电流/A水银温度计测温/c传统算法DTS改进算法DTS测温测温/C误差/c/C误差/c000000152120.30.720.30.72522.323.8-1.523-0.33523.2230.223.5-0.34525.826.
19、5-0.726-0.25530.335.5-5.230.9-0.66536.837-0.237.3-0.54结束语如只采用数字式平均法,通常对每个信号 监测点需要取样至少1000次,这样才能效果去 除噪声的干扰,呈现一个满意的温度场曲线, 但整个过程需要花费1.5秒计算的时间;实验 说明,在累加之前通过聚类算法适当去除测量 数据中的奇异点,可以在保证测量精度的前提 下将采样值缩减为400组,样本规模减小了 60%,并且同样到达令人满意的效果。相比而 言,由于减少了取样次数,所花费的时间计算 时间减少,提高了测量效率。参考文献徐顺生,时章明,基于传热原理的热电偶测 温误差模型及应用J,传感器与微
20、系统, 2006,VoL25,No.5, 15-181 张颖,张娟,分布式光纤温度传感器的研究 现状及趋势J,仪表技术与传感器,2007, No.8, 2-4Mostafa Ahangrani, Torsten Gogolla, Spontaneous Raman Scattering in Optical Fibers with Modulated Temperature Raman Remote Sensing J , Journal of Lightwave Technology, 1999, Vol. 17,234-2392 郭志懋,周傲英,数据质量和数据清洗研究 综述J,软件学报,2
21、002,Vol. 13,No. 11, 33-35张仁辉,小波分析在信号去噪中的应用J, 计算机仿真,2005, VoL22,No.8, 69-723 王喜光,吴长奇,使用互补码提高DOFRTS 性能的研究J,光纤与电缆及其应用技术, 2007, No.l, 19-23Tapas Kanungo , David M. Mount ,An efficient k-means clustering algorithm-analysis and implementation J , JULY2002,NO.7,VOL.24,IEEE,881-892Shi Na ,Liu Xumin , Guan y
22、ong , Research on k-means Clustering Algorithm An Improved【作者简介】江友华(1974-),男,江西抚州人,博士,教授,王润超(1991.),男,江苏南京人,硕士研究生,k-means Clustering Algorithm J ,2010 IEEEDOI 10.1109/IITSL2010.74,63-679 DakinJ.P.,Temperature distribution measurement using Raman ratio thermometry, SP正Fiberoptic and Laser SensorlTI J
23、, 1985,vol.566:249-25310曹立军,分布式光纤温度测量及数据处理技 术研究D,合肥工业大学博士论文,2006, 31-33主要从事电力系统检测及控制方面的研究。 主要从事电力系统检测及控制方面的研究。王林(1990-)男,江苏南通人,硕士研究生,主要从事电力系统检测及控制方面的研究。 陈江伟(1990-)男,河南商丘人,硕士研究生,主要从事电力系统检测及控制方面的研究。【基金工程】国家自然科学基金工程()、上海市自然科学基金(12ZR)、上海市地方能力建设工程() 联系方式:通信地址:13室王润超(收) :200090手机: :【修改说明】感谢专家及编辑部老师对本文的指导和
24、修改工作。针对审稿专家的审稿意见,全体作者经过分析与讨论,对文章进行了认真的修改与梳理。下 面是针对审稿专家的修改意见给出的修改说明,供审稿专家与编辑部批评 与指正。正文修改意见:(1)需提供单位论文发表保密审查证明(加盖单位章扫描后以附件形式传本系统) 已上传,请见附件。(2)引言主要写研究背景,须简写。重新对引言局部进行了整理,去掉了局部内容,直接说明电缆监测的重要性,然后指出目前监 测技术的局限性,引出DTS技术同时指出该技术对数据处理方面的要求,简要介绍了前人的处理方 法,然后引出本文的想法。引言局部字数由633字缩减为430字。(3)2. 2和2. 3节内容抄袭严重,需要修改对原2. 2节内容重新进行了编写,结合图1更加具体的描述了数字式平均法的应用原理。然后 将原2. 3节和原2. 4节整合为新的2. 3节,提出了传统数字式平均法的缺乏需要新的方法改进,而 k-means聚类算法具有这样的优越性,从而引出本文的思路,修改后使得新的2. 3节内容更精练。整篇论文经过反复修改、润色,正文重复率(尤其是2.2和2. 3节)到达要求。另外,还参照贵社论文模板,对全文的格式做了调整,包括字体,所有的公式、图片、表格和 参考文献。