基于梯度加权类激活热力图的...网络故障诊断模型鲁棒性分析_刘潇.pdf

资源描述

1、投稿网址：年第卷第期，（）：科学技术与工程引用格式：刘潇，沈泽俊，张立新，等基于梯度加权类激活热力图的卷积神经网络故障诊断模型鲁棒性分析科学技术与工程，（）：.，（）：.机械、仪表工业基于梯度加权类激活热力图的卷积神经网络故障诊断模型鲁棒性分析刘潇，沈泽俊，张立新，廖成龙，张轩（中国石油勘探开发研究院，北京）摘要深度学习近年来在故障诊断领域受到广泛应用，但基于深度学习的故障诊断模型缺乏工程上的物理解释性，难以保证其故障诊断结果的稳定性。以轴承为例，建立了以小波时频图像为故障诊断依据的卷积神经网络模型（，），提出了一种基于梯度加权类激活热力图（，）的网络模型鲁棒性分

2、析方法，并利用美国凯斯西储大学（，）轴承数据集进行验证。首先，将故障直径轴承数据以不同方式混合并训练大、小多个模型。其次，利用方法，建立时频区域与故障模式之间的联系。最后，利用其他工况下的轴承故障数据，以及含噪数据进行测试，并根据结果结合模型最注重的时频区域进行分析。结果表明，基于深度学习的轴承故障诊断模型在参数较少时更加注重低频区域，并能使其具有更好的鲁棒性。关键词梯度加权类激活图；卷积神经网络；智能故障诊断；鲁棒性中图法分类号.；文献标志码收稿日期：；修订日期：基金项目：中石油科技项目（）第一作者：刘潇（），男，汉族，重庆人，硕士研究生。研究方向：机械设计及理论、人工智能。：。通信作

3、者：沈泽俊（），男，汉族，湖北钟祥人，教授级高级工程师。研究方向：采油采气装备设计及理论。：。，（，），（），（），（），；工业设备故障诊断在保障生产安全性、可靠性，减少经济损失方面有着至关重要的作用，传统故障诊断方法对专家经验要求较高，诊断过程烦琐，且诊断准确率不理想，有较大局限性。随着大数据时代的到来，以深度学习为代表的人工智能技术取得了较大发展，使工业设备故障诊断进入智能化阶段，以数据为驱动的智能故障诊断模型逐步成为主流。深度学习模型具有对专业知识依赖少、模型通用性强等特点，能够自动挖掘数据中的深层特征，投稿网址：替代传统故障诊断中复杂的人工特征提取，极大简化故障诊断过程，且诊断准确率高

4、于传统方法，因此受到许多专家、学者关注，并将其应用于工业设备智能化故障诊断。目前主要的深度学习模型有卷积神经网络，循环神经网络（，），深度自编码器（，）等，其中卷积神经网络模型（，）为最具代表性模型，具有参数少、泛化能力强等特点，在许多基准测试中都表现优秀。在故障诊断中受到了广泛应用，等首次将运用于故障诊断并验证其结果优于基于特征工程的传统方法；等提出一种将不同位置传感器信号融合排列成二维矩阵形式输入的故障诊断方法；等利用短时傅里叶变换（，）将轴承振动信号转换为时频图像并以此建立二维故障诊断模型；等将与长短时记忆神经网络（，）相结合提出了一种用于轴承故障诊断的新模型；等提出一种多尺度卷

5、积核一维轴承故障诊断模型，该模型利用原始振动信号进行故障诊断，并对较难识别的混球故障有较高的诊断准确率；等将振动信号沿角方向排列为图像训练二维对往复式压缩机进行故障诊断，并发现此类样本特征更明显；等采用燃气轮机正常数据集训练，并将其内部层迁移至小样本故障数据集用于特征表示，随后利用支持向量机（，）进行故障诊断。目前凭借其强大的分类能力在故障模式识别任务中取得了不错的效果，但类似于其他分类任务，依旧是在的框架下通过学习参数找到一种方法将不同故障模式区分开来，不能很好地给出该方法的分类依据，缺乏可解释性，其诊断结果难以令人完全信服。针对的“黑箱”问题已有许多学者进行了深入研究。等提出了

6、类激活映射（，）定位方法，能够有效地定位出在图像识别中所依据的重点区域，从而帮助人理解对于图像的分类依据。但该方法要求分类层之前为全局平均池化层，此类结构的模型在某些复杂任务上精度比一般的网络模型低，或者用全局平均池化代替全连接层后进行二次训练，有一定局限性。等提出一种基于梯度加权类激活热力图（，）方法以解决此问题。利用模型所提取特征图及其梯度信息加权求和之后与原图像叠加得出一个粗定位图，以突出用于图像分类的重要区域。该方法对网络结构没有要求，具有更好的泛用性以及一定的精度。张俊鹏等将用于，发现该模型在故障分类方面与人的经验基本相符。以上研究旨在找出网络输入的重点区域以帮助人理解网络

7、的分类依据，且应用于图像处理领域较多，而故障诊断领域较少。现将用于以时频图像为输入的网络模型，观察不同工况数据训练出的网络模型所依赖的时频重点区域，并利用不同数据对模型进行测试，结合时频图像物理意义分析不同重点区域以及不同训练数据对模型鲁棒性的影响。简介是一种用于深度学习模型的图像定位方法，由于该方法对网络结构没有特殊要求，因此得到了广泛的应用。利用特征图保留位置信息的特点，将各个特征图乘以平均梯度权重后叠加得到类激活图，并最终以热力图形式叠加到原图上以直观展示图中重点区域。分类模型通常以输出值最大的类作为其识别类别，而则以此输出进行反向传播，获得特征层的梯度信息（通常选择全连接层前一

8、特征层），并求得各个特征图的平均梯度以反映各个特征图对识别结果的贡献程度，表达式为，（）式（）中：为第个输出反向传播中第个通道特征图的平均梯度；为特征图像素点总个数；为输出的最大类的输出值；，为第个通道对应的特征图。将各个通道特征图平均梯度作为权重乘以各个通道特征图并叠加，再剔除小于的负值以消除其他类别的影响即可得到网络用于分类的重点区域，表达式为()（）式（）中：为所得到的类激活图；为用于剔除负值的非线性激活函数。最后将类激活图以热力图的形式叠加在原图上直观地显示图中的重点区域，以帮助理解网络模型的分类依据，如图所示，其中颜色越红表示模型对该区域越重视。而在样本直观或具有明确物理

9、意义情况下能够用于判断网络是否学习到用于图像分类的正确信息。，（）刘潇，等：基于梯度加权类激活热力图的卷积神经网络故障诊断模型鲁棒性分析投稿网址：图可视化过程.故障诊断模型利用发展较为成熟的网络架构以及广泛使用的轴承数据集训练多个模型作为分析对象。.数据来源简介所用轴承数据集来自美国凯斯西储大学（，）公开轴承数据集。轴承数据集是故障诊断领域知名数据集，也是目前故障诊断学术论文中使用最多的数据集之一。该数据集实验装置如图所示。数据集包含不同测点、负载、转速、故障状态以及故障程度的数据，具体参数如表所示。图数据集实验装置.表数据参数测点状态直径负

10、载转速（）驱动端正常.内圈故障.风扇端滚子故障.外圈故障.注：（马力）是功率单位，。选取其中不同故障直径数据组合，并通过控制全连接层隐藏单元数，将全连接层隐藏层神经元数分别设计为及，对比学习能力不同的大小模型的性能差异，其中大模型体积约为小模型体积的.倍左右。一共训练个模型进行对比分析，具体参数如表所示。表模型训练数据参数测点模型故障直径隐藏单元数模型一.驱动端模型二.，.模型三.模型四.，.所用数据负载为，电机转速，采样频率为。.数据集构建.数据划分与增强构建数据集时，得出一个周期包含个样本点，考虑须保证故障信息的完整性以及计算速度，采用个采样点为一个样本。由于数据

11、集单个数据长度有限，采用滑动窗口取值的办法，每个样本有一定重合，以获得更多的样本，如图所示。此外，该方法能够获得不同初相位样本，提高样本多样性。图滑动窗口.为控制变量，将每个故障类型均取个样本，科学技术与工程，（）投稿网址：作为训练集，而测试集和验证集的构建则是分别在未使用信号段上随机无重复截取长度为的个样本。.小波时频图像连续小波变换是一种时频域信号分析方法，弥补了传统傅里叶变换的缺点。传统傅里叶变换以正弦函数及余弦函数为基函数，将振动信号分解为不同频率的正、余弦函数叠加的形式，但由于正、余弦函数为整个时域上的周期函数，无法分辨各频率成分出现时间。而小波变换将原始信号

12、以内积的方式投影到小波基函数上，再通过调整尺度参数和位移参数以获得原始信号在不同时段、不同频率上的分量，最终得到小波系数矩阵以及通过该矩阵绘制的时频图像。，（），()（）式（）中：（）为时域振动信号；，（）为小波基函数；为尺度参数，控制小波基函数的频率；为位移参数，控制小波基函数的位置。小波变换通常能够获得信号的局部特征，对于工程中常见的非平稳信号有较好的应用效果。由于小波变换能够将一维信号转化为二维图像，许多学者用其进行数据预处理并作为的学习样本并进行故障诊断。使用故障诊断中常见的小波作为基函数对信号样本进行小波变换，如图所示。根据香农采样定律将频率范围设置为采样频率的一半，同时等间隔

13、取个频率点，并将获得的小波系数矩阵转化为的灰度图像，且模型输入通道调整为以适应该数据样本。每一故障种类获得张图像，共张图像构成数据集，利用此数据集对模型进行训练。图小波时频灰度图像.模型构建与训练模型在过去受到了广泛应用，在计算机视觉等领域取得了巨大成功，产生了许多经典的网络结构，如、等。根据任务复杂度、计算速度等方面考虑，在架构基础上结合倒置瓶颈结构进行改进，有效提高了内存效率。所用网络结构如表所示。表网络结构名称参数卷积层卷积核大小（，），步长，数量，最大池化池化区域大小（，），步长卷积层卷积核大小（，），步长，数量，最大池化池化区域大小（，），步长

14、卷积层卷积核大小（，），步长，数量，卷积层卷积核大小（，），步长，数量，卷积层卷积核大小（，），步长，数量，卷积层卷积核大小（，），步长，数量，最大池化池化区域大小（，），步长全连接层输入维度，输出维度（）失活概率.全连接层输入维度（），输出维度（）失活概率.全连接层输入维度（），输出维度注：代表卷积操作前在图像周围补充像素点的圈数。为提高训练效率，将样本大小均调整为后利用数据集整体均值与方差对样本进行归一化预处理，以张图像为一个，打包为的张量数据，分别对该模型训练轮；采用优化器，初始学习率为.，选择训练过程中验证准确率最高轮次的模型进行保存，

15、得到个模型的训练结果如图所示。由图可知，个模型在验证集上均取得了优异的效果，且训练收敛较快，通常在第一、二轮时就已达到较高的精度。虽然数据源较多的模型三、模型四在训练过程有小幅度波动，但依旧能够取得良好的验证结果，证明模型有能力对轴承故障模式进行区分，能够用于对轴承的故障诊断。模型鲁棒性分析上述模型在训练数据集所在故障程度以及工况条件下，均取得了良好的诊断效果，为了体现模型泛，（）刘潇，等：基于梯度加权类激活热力图的卷积神经网络故障诊断模型鲁棒性分析投稿网址：图训练结果.化能力，在测试时使用未参与训练的载荷为的故障数据，其中包含故障直径.的各部位故障数据，在其原始信号段上以长度为的

16、窗口进行随机无重复截取，每种故障部位及直径截取个样本，正常数据截取个样本，一共个样本构成跨工况混合测试数据集。利用该数据集测试所得的混淆矩阵如图所示。、分别代表正常、内圈故障、滚子故障以及外圈故障个类别图测试结果混淆矩阵.科学技术与工程，（）投稿网址：由图可知，训练数据相同的情况下（模型一和模型三，模型二和模型四采用相同数据集进行训练），更小的模型能够更好地泛化到其他工况及故障直径上。值得注意的是，模型二和模型四以相比于模型一和模型三在对于滚子及外圈的故障识别中有明显优势，而对内圈的故障识别中大致相当，说明加入不同故障直径数据进行训练能够有效提高模型对于滚子、外圈故

17、障的泛化能力。个模型在该测试集上准确率较低的原因主要是网络模型本身缺乏可解释性以及对数据的依赖性，往往会在遇到与训练数据不同分布的样本时出错。利用方法，随机抽取个不同故障类型的样本进行可视化，分析模型所注重的重点区域并找出对网络模型稳定性影响较大的因素，其结果如图所示。如图所示，具有隐藏单元的大模型具有较强的学习能力，通常会注意到信息丰富的中频图跨工况条件下各模型鲁棒性测试整体结果.图类激活热力图.，（）刘潇，等：基于梯度加权类激活热力图的卷积神经网络故障诊断模型鲁棒性分析投稿网址：区域而很少注意低频区域，而具有隐藏单元的小模型则将大部分注意力放在低频区域。事实上，信号的低频成

18、分通常更加稳定，对比类激活热力图以及混淆矩阵不难发现，在小模型比大模型表现更好的类中，大模型通常没有注意到低频区域，而在大模型和小模型表现相当的故障种类中，大模型同时注意到了中频及低频区域。例如模型二和模型四的对滚子的故障识别以及模型一和模型三对外圈的故障识别。在对模型不同角度测试中，发现模型较难泛化的是不同故障直径的数据，而对于相同故障直径不同工况的数据则有一定的泛化能力，模型在上述测试集上表现较差的具体原因则是训练集中未能包括测试集中所有故障直径，而受不同负载工况的影响较小。为验证此观点，利用训练集中所包括的故障直径为.在负载下的类故障数据，加入白噪声使信噪比达到，并转换为小波时频图

19、像构成测试集对模型进行测试，结果如图所示。由图可知，从整体上看，小模型在该测试中的表现依旧更好。模型二在对于外圈故障的识别中注重低频区域的同时利用了大部分中频区域的特征，从图可以看出，外圈故障时频图在中高频部分分布较将广且均不突出，容易被噪声淹没，因此受到一定影响，而在对滚子的故障识别中存在同样的问题，但由于模型二在对滚子的故障识别中将重心放在了中频区域，几乎没有注意低频区域，受到较大干扰，因此出现了严重下滑，模型四中则没有此问题。值得注意的是，虽然模型一和模型二在对内圈故障识别中均注重中频区域，但结果较模型三和模型四稍好，这是由于在内圈故障时频图中的中频部分出现了明显的故障特征，且分量

20、较大，不容易被噪声淹没，学习能力较强的大模型注意到了这一点，但依旧未与模型三和模型四拉开明显差距。结论针对目前深度学习故障诊断模型可解释性较差、常在不可预知的情况下出错的问题，利用不同数据源训练不同大小的模型，并结合以及多项测试结果对模型的鲁棒性进行分析，得到以下结论。（）比起具有更强学习能力的大模型，小模型更加注意低频特征，大模型通常会注意中频或同时注意中低频特征，而低频特征往往更加稳定，不容易受到噪声等干扰，具有较好的鲁棒性。在构建以、分别代表正常、内圈故障、滚子故障以及外圈故障个类别图跨工况及噪声条件下各模型鲁棒性测试结果.科学技术与工程，（）投稿网址：图跨工况及

21、噪声条件下各模型鲁棒性测试整体结果.时频图像为样本的故障诊断模型时可以考虑适当缩减模型参数。（）不同故障直径数据相较于不同的负载工况更难进行泛化，而加入不同故障直径数据进行混合训练能显著提高模型对于滚子、内圈故障的泛化能力。在训练时加入更多不同故障直径数据是必要的。（）图像定位方法能够较好地定位模型在识别不同故障类型所注意的重点区域，结合模型测试结果来看也符合低频分量更为稳定的一般规律。综上，提出了一种基于方法对以时频图像为诊断依据的模型鲁棒性进行分析的方法，通过该方法分析影响模型稳定性的要素，能够为模型分类做出一定解释以及为评估模型鲁棒性提供一些参考。参考文献，：，（），（）：，（）：

22、，（）：，：，（）：，（）：，（）：，：.，（）：，：，：，：，：，：，：张俊鹏，杨志勃，陈雪峰，等卷积神经网络在轴承故障诊断中的可解释性探讨轴承，（）：，（）：，（）.，：，：，（）：，：，（）：，（）：，（）：杨胜康，孔宪光，王奇斌，等基于多源域深度迁移学习的机械故障诊断振动与冲击，（）：，（）刘潇，等：基于梯度加权类激活热力图的卷积神经网络故障诊断模型鲁棒性分析投稿网址：，（）：，：，：，：，（）：，：肖小梅，杨红云，易文龙，等改进的模型在水稻害虫图像识别中的应用科学技术与工程，（）：，（）：岳有军，田博凯，王红君，等改进模型在苹果外观分类中的应用科学技术与工程，（）：，（）：，：，：，：.科学技术与工程，（）

展开阅读全文