基于互信息的自动聚类算法在故障诊断过程中的应用_何康.pdf

资源描述

1、第卷第期年月热能动力工程，收稿日期：；修订日期：作者简介：何康（），男，东南大学硕士研究生文章编号：（）基于互信息的自动聚类算法在故障诊断过程中的应用何康，任少君，司风琪（东南大学能源热转换及过程测控教育部重点实验室，江苏南京）摘要：随着热工建模过程中参数的增多，根据参数之间的相关性进行分块建模成为降低模型复杂度、提高模型监测效果的有效手段之一。因此提出了一种基于互信息的自动聚类、分块建模方法。首先，获取参数之间的互信息矩阵，在此基础之上以训练数据的平均平方预测误差最小为标准，使用谱聚类算法对参数进行自动聚类。然后，分别建立每个子块对应的主成分分析（，）模型，并将所有子块的

2、建模结果通过贝叶斯理论进行融合来对多个子块模型进行统一监测。最后，采用基于最小角度回归（，）的故障诊断方法定位故障发生的方向和幅值。通过数学案例的验证和电厂高温再热器的实际应用，表明了所提方法在故障监测和诊断方面的有效性。关键词：互信息；谱聚类；故障诊断中图分类号：文献标识码：引用本文格式何康，任少君，司风琪基于互信息的自动聚类算法在故障诊断过程中的应用热能动力工程，（）：，（）：，（，：）：，（），（）：，第期何康，等：基于互信息的自动聚类算法在故障诊断过程中的应用引言热工过程中的设备运行环境恶劣复杂，设备之间的关联耦合性强，运行参数多。在众多的监测方法中，基于多元统计学的方

3、法如主成分分析（）法、偏最小二乘（，）法等由于其算法简单、适用范围广，得到了大量的研究和应用。建模方法将数据映射到低维空间来建立全局模型，并通过残差子空间的统计量来进行过程监测。但是随着模型参数的增多，整个模型会越来越复杂，这就会造成模型的监测和诊断效果下降。因此，为了降低模型的复杂性，提高监测诊断的效果，分块建模成为新的研究热点。分块建模的主要思想是通过定量评估参数间的相关性对过程参数进行分类，从而针对具有强相关的子块参数进行分块建模。等人通过将主成分空间和残差空间分成个部分进行分块建模来提高模型的精度。等人沿主成分方向对主元信息进行重构，寻找参数间的相关性，提出分布式主成分分析（，）的分

4、块建模方法，有效提升了模型的监测效果。但是当监测出故障之后，如何准确地进行故障隔离、定位故障发生的参数，仍是一个待解决的问题。等人在划分参数时，综合考虑了变量之间的相关性和冗余性，提出了基于最小冗余最大相关性的分布式建模监测方法，该方法可以在一定程度上提高模型的监测效果。但是实际热工过程中，参数之间的关系往往很复杂，仅仅依靠相关性有时难以对参数进行准确分类。互信息（，）是一种成熟的统计分析方法，通过信息熵去度量两个变量之间的依赖。等人提出了一种基于过程变量间互信息的非平稳过程监控方法，计算正常操作条件下互信息矩阵的特征值欧氏距离，以获得统计量并对过程进行监测。等人基于互信息对电力系统中的海量

5、数据进行特征选择，并使用这些特征进行故障监测。现存的研究方法，在使用互信息对参数进行聚类时大部分都需要根据先验知识去确定聚类个数。但是在热工建模过程中，随着参数的增多，这种先验知识往往很难准确获得。而在分块建模中，参数聚类的准确与否会对后续模型监测效果产生重要影响。综上，为了提高模型的监测和诊断效果，提出了一种基于互信息自动聚类的分块建模故障诊断算法（，）：（）在参数之间互信息矩阵的基础之上，以训练数据的平均平方预测误差最小作为最佳聚类个数的评判标准，使用谱聚类算法完成对参数变量的自动聚类；（）当监测到故障发生之后，首先对故障发生的子块进行定位，然后使用基于的重构算法对故障参数进行定位并计算

6、出对应的故障幅值。使用数学仿真案例和电厂实际高温再热器的过程数据对所提方法进行验证。基于互信息的自动聚类算法互信息理论在信息论和概率论中，互信息是衡量随机变量之间相互依赖程度的度量，反映两个变量直接的相关性：（，）（，）（，）（）（）（）式中：（，）和的互信息值；（）的边缘概率密度函数；（）的边缘概率密度函数；（，）和的联合概率密度函数。对于连续随机变量，式（）中的求和被替换成了二重积分：（，）（，）（，）（）（）（）可以看出，不同于相关系数，互信息不局限于实值随机变量，取决于联合分布（，）和边缘分布（）（）乘积的相关性。值越大表明和之间相关性越高，为则表明和相互独立。并且通过

7、互信息的定义可以看出，其具有对称性和非负性，即：（，）（，）（）式中：（，）和的互信息值。对于给定的样本（，），样本的热能动力工程年互信息矩阵：（，）（，）（）式中：（，）样本和之间的互信息值。谱聚类谱聚类是从图论中演化出的一种聚类算法，相比于等算法，对数据分布的适应性更强。其基本思想是把所有的数据看作空间中的点，这些点之间可以用边连接起来。距离较远点之间权重低，距离较近的点之间权重高。通过对所有数据点组成的图进行切图，让切图后不同子图之间的边权重尽可能低，而子图内的边权重尽可能高，从而达到聚类的目的。对于给定的样本（，）和聚类数目，其计算步骤为：（）计算样本的相似度矩阵。（）根

8、据相似度矩阵构建度矩阵：（）式中：矩阵对角线的第个元素。（）根据式（）计算拉普拉斯矩阵：（）根据式（）构建标准化的拉普拉斯矩阵：（）之后，计算最小的个特征值所对应的特征向量。（）将特征向量按行进行标准化，最终组成维的特征矩阵。（）对中的每一行使用聚类方法进行聚类，聚类的数目为，并最终得到新的类族，。因此，如果将样本的互信息矩阵作为相似度矩阵进行谱聚类，那么最终得到的聚类结果就能够使每个子块参数之间的互信息最小，子块内参数之间的互信息最大，从而达到对样本参数进行聚类的目的。基于互信息的自动聚类算法传统的谱聚类方法需要根据先验知识去确定聚类个数，但是热工过程参数多，参数之间关

9、系复杂，往往很难获取到完备的先验知识去确定最佳的聚类个数。对于故障监测模型来说，评价其精度的标准之一就是平方预测误差（，），其定义为：（）（）（）式中：样本的预测值。越小，表明模型的预测误差越小，训练模型的精度越高。因此，以训练模型的平均最小为依据，自动确定谱聚类的最佳聚类个数，算法流程为：（）输入：要进行聚类的训练样本，其中为样本个数，为参数个数。（）输出：聚类的类族。计算样本的互信息矩阵；初始化聚类个数集合，初始为空集合。，以作为相似度矩阵，作为聚类个数，使用谱聚类对参数进行聚类并得到对应的聚类结果。对于每个类族中的参数样本，使用方法进行建模，得到对应的统计指标，根据式

10、（）计算对应的平均，并将其加入集合之中。（）式中：平均值；聚类个数。（）计算集合中的最小值，将其对应的聚类个数作为谱聚类的最佳聚类个数，并输出对应的聚类结果。建模诊断方法回归算法最小角度回归算法，是为了解决稀疏回归问题而提出来的一种算法：|（）式中：训练样本；训练标签；稀疏回归系数；向量中不为的元素个数；样本个数。稀疏回归问题的本质就是进行高维数据的特征选择，在尽量保留数据原始特征的基础上，使得回归系数尽可能稀疏，即有尽可能多的项值为。这样在提高模型精度的同时也可以大幅度降低计算量。作为求解稀疏回归问题的经典算法，其第期何康，等：基于互信息的自动聚类算法在故障诊断过程中的应

11、用思想与前向选择方法类似，都是逐步进行。但是对于维的数据最多只需要步就可以完成整个算法的迭代过程，原理如图所示。图算法的原理示意图假设训练数据（，），当前稀疏回归的预测值为，根据式定义相关系数（）。（）（）（）算法初始时，从图可以看出，此时更靠近，即（）（），于是算法会选择沿着方向更新：（）式中：步长；更新后的预测值。而步长的选择则是使得可以平分与的夹角，即（）（）。在完成第次选择之后，第次选择会沿着的方向，直到残差足够小为止，至此完成第次的选择过程。此时对应的步长集合即为所求的稀疏回归系数。对于高维数据，假设第次选择之后，算法下一次的选择方向位于特征和的角

12、平分线上，则算法在下一次特征选择时都会探索更多的可能方向，以使得下一个特征和预测值的相关系数（）与（）和（）相等，然后再更新对应的稀疏回归的预测值。依次循环，直到残差足够小或者所有的变量已经选择完毕，算法终止。算法的具体求解过程可以参考文献。建模方法对于给定的样本，建模的流程：（）求解的协方差矩阵。（）式中：样本个数。（）对进行特征值分解，得到对应的特征值和特征向量。并根据累计贡献率选择主成分个数，再将对应的特征向量组成新的矩阵。（）式中：累计贡献率；第个特征值；参数个数。（）计算样本的控制线。（）|（）式中：；置信度为的正态分布控制上限。（）对于给定的监测样本，计算其对

13、应的值，如果则认为此时有故障发生。基于的故障诊断方法当故障发生之后，就需要找到故障发生的方向以及故障幅值。故障发生之后，对应的重构监测指标可以写成：，（），（）式中：，单位矩阵。进一步，可以将其写成：，（），?（）式中：?；?；。而数学表达式形式和稀疏回归问题的目标函数完全一致。因此，可以将故障诊断问题转化为稀疏回归系数的求解问题，即可以用算法来快速求解稀疏回归系数，即故障幅值。需要说明的是，在使用算法求解式时，根据参考文献，如果找到了正确的故障参数和对应的故障幅值，就可以使得监测指标降到控制线以下。即在每个迭代计算完成之后，首先计算对应的值，如果满足，则终止计算，将得到的稀疏

14、回归系数作为故障幅值的输出。基于互信息的分块模型故障监测与诊断随着建模参数的增多，对应的聚类子块数目和热能动力工程年子块模型也会增多，无法得到一个直观的最终决策。因此，采用贝叶斯融合策略，将所有子块的统计量组合成一个新的（）统计量来进行统一监测，下标表示平方预测误差。对于监测样本，首先计算属于子块的部分故障数据的后验概率。（）（）（）（）（）式中：故障；（）故障的概率。对于给定的置信度，分别计算故障和正常的条件概率。（），（）（）（），（），（）式中：所属的子块的限值；，监测数据为时计算得到的限值；正常。根据全概率公式，可以得到（）的计算式：（）（）（）（）（）（）对于最终的贝

15、叶斯融合指标值为：，（）式中：，第个分组的贝叶斯值。计算式为：，（）（）（）（）如果，则认为过程是正常的，否则认为过程是异常的。当监测到故障发生之后，先计算各子块的，值，其最大值对应的子块为故障发生的子块。之后对这个子块的模型使用故障诊断方法进行故障隔离，找出故障发生的方向和幅值。基于互信息的分块建模诊断算法的流程如图所示。具有步骤为：（）对训练数据进行归一化，并计算的互信息矩阵。（）以的平均最小为依据，使用谱聚类获取的聚类结果。对每个子块使用算法进行建模，并计算对应的阈值。（）对于监测数据，计算其对应的值，并判断是否有故障发生。若有故障发生，使用算法进行故障诊

16、断来确定故障参数和对应的故障幅值。图算法流程图数学仿真和实际案例应用数学仿真为了验证所提出算法的有效性，建立数学模型。，|（）式中：（，），（，），第期何康，等：基于互信息的自动聚类算法在故障诊断过程中的应用（，），（，），（，），（.，），（，），（，），（，）。式中：服从高斯分布的随机数据；噪声；系数矩阵。噪声，（，）。系数矩阵为：|（）生成组样本并标准化，作为训练数据。图分别展示了第个、第个和第个参数与其他参数之间的互信息值。图部分参数之间互信息值以样本的互信息矩阵作为相似度矩阵，采用自动聚类算法对参数进行聚类，聚类的结果如图所示。可以看出，本文的算法将原始数

17、据分成了类，并且将结构相似、相关性强的参数放在同一子块中，这与原始数据的分布特征也是完全吻合的。图参数聚类结果针对训练数据，生成两类模拟故障：（）故障。对第个参数，从第个样本开始设置故障幅值大小为的阶跃故障；（）故障。对第个参数，从第个样本开始设置故障幅值大小为（）的线性故障。为了进一步说明算法的有效性，分别采用本文得到的最佳聚类个数（）和随机选取的聚类个数（）以及算法对数据进行建模分析。首先进行故障的监测，在监测到故障的发生之后，采用算法进行故障隔离。其中，诊出率（，）和误诊率（，）的计算公式为：()（）（）()（）式中：样本个数；参数个数；第

18、个测试样本涉及的故障参数个数；第个测试样本实际被诊出的故障参数个数；第个测试样本被误诊的参数个数。图和图分别展示了种算法对两种故障的监测结果。图展示了在第个样本处不同类族的值。表展示了种算法对两种故障的监测准确率、诊出率和误诊率。热能动力工程年图故障监测结果图故障监测结果图第个样本处个类族的值表种算法的建模结果（）（）方法故障故障由图的监测结果和表的诊断结果可以看出，对于故障，此时故障参数的故障幅值很小，算法已经难以捕捉到局部参数的异常，因此模型的监测效果较差，诊出率也低；相比较之下算法由于采用了分块建模的策略，能够更好地捕

19、捉到局部参数的变化，监测和诊断效果好于算法。同时，通过图可以看出，本文的聚类算法将局部特征相似的参数自动划分到一个子块中，可以大幅度提高模型的监测精度以及故障隔离时的诊断效果。对于故障，由图和表可以看出，算法在故障的监测和诊断方面也具有明显的优势。实际案例应用高温再热器作为锅炉汽水循环的核心部件长期处于高温条件下工作，很容易发生超温爆管的恶性事故。选取某电厂的高温再热器作为研究对象，进行超温的故障监测和诊断。该电厂的高温再热器为屏式对流换热器，共有屏，每个屏有进、出口个温度测点。采集正常工况下的再热器的前个屏的出口温度过程变量的个样本作为训练样本。对于测试样本，前个样本为正

20、常运行工况下的样本，后个样本为再热器第屏末管壁温度在超温故障下运行的样本。图为第期何康，等：基于互信息的自动聚类算法在故障诊断过程中的应用部分参数和其他参数之间的互信息。图部分高温再热器参数间的互信息首先利用自动聚类方法对个高温再热器出口壁温参数进行聚类，结果如图所示。可以看出，相邻的高温再热器出口壁温测点被分在同一个子块中，这与整个高温再热器出口壁温的特性相符合。图高温再热器出口壁温参数聚类结果图为高温再热器出口壁温超温的监测结果。可以看出，在第个样本之后，算法可以达到持续报警。图的故障类族识别结果表明，在对测点参数进行合理的聚类之后，算法准确地识别到了超温的子

21、块。结合故障诊断算法，由表可以看出，对故障测点的定位准确率可以达到，很好地做到了故障参数的实时监测与智能预警。图高温再热器故障监测结果表及高温再热器建模结果方法诊出率误差诊热能动力工程年图故障类族识别结果结论对热工过程的分块建模方法进行了研究。首先获取参数之间的互信息矩阵，在此基础之上，以训练样本平均最小为标准，使用谱聚类对参数进行自动聚类。对聚类得到的子块分别建立模型，并使用贝叶斯理论对子块模型进行统一监测。当监测到故障发生时，首先定位到故障发生的子块，之后使用算法对故障参数进行定位。数学仿真和现场实际案例应用都表明，该算法相比于传统的算法在故障监测和诊断方面具有明显的优势，可以对现场运行的设备进行更准确地故障监测和预警。参考文献：，：，：，（）：，：，（）：，（）：，（）：，：，（）：，：，：，：，：，：，：，：，（）：，（）：范大志锅炉高温受热面爆管与寿命监测研究保定：华北电力大学，：，（丛敏编辑）

展开阅读全文