收藏 分销(赏)

小样本轴承故障诊断研究综述_司伟伟.pdf

上传人:自信****多点 文档编号:466408 上传时间:2023-10-12 格式:PDF 页数:12 大小:1.87MB
下载 相关 举报
小样本轴承故障诊断研究综述_司伟伟.pdf_第1页
第1页 / 共12页
小样本轴承故障诊断研究综述_司伟伟.pdf_第2页
第2页 / 共12页
小样本轴承故障诊断研究综述_司伟伟.pdf_第3页
第3页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023,59(6)滚动轴承是旋转机械中最关键的部位之一,其运行状态决定机器能否正常运行。当滚动轴承发生故障时会造成巨大的经济损失并威胁到操作人员的生命安全1。随着大数据时代的来临,越来越多基于数据驱动的方法应用于滚动轴承的故障诊断,在数据量充足的情况下这些方法表现出了优越的性能。相关学者总结了大量关于数据驱动的优秀文献综述,例如,Lei等2按照时间线将故障诊断分为三部分:传统机器学习,深度学习和迁移学习,并讨论了如何为机器学习提供大量的数据。Cen 等3综述了最近几年基于数据驱动的研究成果,将其分为浅层机器学习、深度学习和迁移学习三个框架,并总结了各种方法的适用场景。但是基于数据驱动的故障诊

2、断方法存在一个不可避免的弊端:在小样本的情况下,难以取得理想的效果。而在实际生产过程中,由于生产工艺的要求,机器绝大部分的时间都处于正常运转状态,只能获得少量故障样本,这就要求模型具有较高的泛化性能和鲁棒性。小样本条件下的轴承故障诊断问题将成为未来的热门小样本轴承故障诊断研究综述司伟伟1,2,岑健1,2,伍银波1,2,胡学良3,何敏赞3,杨卓洪1,2,陈红花1,21.广东技术师范大学 自动化学院,广州 5106652.广州市智慧建筑设备信息集成与控制重点实验室,广州 5016653.中国石油化工股份有限公司 广州分公司,广州 510726摘要:随着数据时代的来临,基于数据驱动的轴承故障诊断方法

3、表现出了优越的性能,但是此类方法依赖大量标记数据,而在实际生产过程中很难收集到大量的数据,因此小样本的轴承故障诊断具有很高的研究价值。对小样本条件下的轴承故障诊断方法进行了回顾,并将其分为两类:基于数据的方法和基于模型的方法。其中基于数据的方法是从数据角度对原始样本进行扩充;基于模型的方法是指利用模型优化特征提取或者提高分类精度等。总结了当前小样本条件下故障诊断方法的不足,并展望了小样本轴承故障诊断的未来。关键词:小样本;故障诊断;数据扩充;元学习;迁移学习文献标志码:A中图分类号:TP206+.3doi:10.3778/j.issn.1002-8331.2208-0139Review of

4、Research on Bearing Fault Diagnosis with Small SamplesSI Weiwei1,2,CEN Jian1,2,WU Yinbo1,2,HU Xueliang3,HE Minzan3,YANG Zhuohong1,2,CHEN Honghua1,21.School of Automation,Guangdong Polytechnic Normal University,Guangzhou 510665,China2.Guangzhou Intelligent Building Equipment Information Integration a

5、nd Control Key Laboratory,Guangzhou 501665,China3.Guangzhou Branch Company,Sinopec Corp,Guangzhou 510726,ChinaAbstract:With the advent of the data era,bearing fault diagnosis methods based on data-driven have shown superior per-formance,but such methods rely on a large number of labeled data,and it

6、is difficult to collect a large amount of data inthe actual production process,so bearing fault diagnosis with small samples has high research value.In this paper,thebearing fault diagnosis methods under the condition of small samples are reviewed,and divided into two categories:data-based methods a

7、nd model-based methods.The data-based method expands the original samples from the perspective ofdata.The model-based methods refer to the use of models to optimize feature extraction or improve classification accuracy.Finally,the shortcomings of current fault diagnosis methods under the condition o

8、f small samples are summarized,andfuture research directions of bearing fault diagnosis with small samples are prospected.Key words:small samples;fault diagnosis;data expansion;meta-learning;transfer learning基金项目:广东省普通高校创新团队项目(2020KCXTD017);广东省普通高校“人工智能”重点领域专项项目(2019KZDZX1004);广州市重点实验室建设项目(202002010

9、003);广州市农业和社会发展重点研发计划项目(202206010022)。作者简介:司伟伟(1998),男,硕士研究生,研究方向为故障诊断;岑健(1967),通信作者,女,博士,教授,研究方向为故障诊断、建筑电气智能化与节能和机器学习等,E-mail:。收稿日期:2022-08-09修回日期:2022-11-09文章编号:1002-8331(2023)06-0045-12Computer Engineering and Applications计算机工程与应用45Computer Engineering and Applications计算机工程与应用2023,59(6)研究方向。小样本学习

10、已经在自然语言处理、图像分类等领域取得不错的成果,并有很多相关的综述4。例如,Wang等5从数据、模型和算法角度对小样本学习进行分类,其中从数据角度是对小样本进行扩充,增大样本的数量;从模型角度是通过限制模型复杂度、减小假设空间从而利用少量数据进行建模;从算法角度是改进假设空间中对最优解的搜索方法。在图像分类领域,小样本学习是指样本数量只有几十个,通常少于20个6。但在故障诊断领域中,20个样本所包含的信息太少,查阅大量文献后发现,在故障诊断领域中的小样本是指样本数量从几十个到几百个不等。近年来,小样本故障诊断也取得不少成果,例如,Saufi等7在有限样本的条件下,使用粒子群算法来优化堆叠稀疏

11、自编码器的隐藏层超参数,并在两个数据集上分别达到了100%和99%的准确率。Yang等8将小波变换后的时频图输入到结构相似性生成对抗网络(structuralsimilarity generative adversarial network,SSGAN),生成新的样本用以训练分类模型,分类模型采用改进的IMCNN(improved MobileNetv3 convolutional neuralnetwork),实验结果表明所提方法可以扩展小样本,自动检测滚动轴承的故障。此外,在小样本故障诊断综述方面,Pan等9回顾了13种基于生成对抗网络(generativeadversarial netw

12、orks,GAN)的小样本故障诊断方法,并将其分为三类:用于数据增强的深度生成对抗网络、用于迁移学习的对抗训练和其他方法。但是该综述只聚焦于GAN,对于其他的生成模型和小样本故障诊断方法没有涉及。Zhang等10按照故障诊断的流程,将小和不平衡数据集下的故障诊断方法分为基于数据增强策略、基于特征提取策略和基于分类器设计的策略。虽然小样本故障诊断取得了一些成果,但是现有的相关综述较少,且总结得不够全面,很少涉及目前热门的元学习和迁移学习方法。对于小样本轴承故障诊断而言,算法和模型的界限较为模糊,考虑到算法是求解模型的方法,可以将算法和模型归为同一类。本文通过对现有的小样本故障诊断成果进行梳理,并

13、且按照故障诊断流程分为两类:基于数据的方法和基于模型的方法,如图1所示。基于数据的方法指对数据量进行扩充或者提高数据质量,包含的方法有合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE),生成对抗网络、变分自编码(variational auto-encoders,VAE)、TrAdaboost模型;基于模型的方法是指从模型角度优化特征提取过程或者提高分类器的分类精度,包含的方法有迁移学习、元学习、正则化方法、支持向量机(support vector machines,SVM)等。同时,也有些研究人员将以上各种方法结合进行小样

14、本故障诊断。1基于数据的方法小样本故障诊断的核心问题是样本量太小导致无法训练出一个可靠有效,泛化性强的诊断模型。解决这种问题最直观的方法就是利用原始样本生成大量相似的伪样本,然后利用伪样本来辅助训练。接下来从数据角度介绍几种解决小样本问题的方法。1.1SMOTE1.1.1SMOTE理论传统的过采样方法只是对原始数据进行简单的复制,这样仅仅增加样本数量,分类器只能学习到重复的特征,导致模型泛化性能较差,SMOTE在一定程度上解决了这种问题。SMOTE的基本思想是从少数类样本出发,找到邻近的同类样本,并在两者之间生成新的少数类样本,使得样本更加平衡11。其示意图如图2所示。设少数类样本的样本集为X

15、=x1,x2,xn,其中xn为第n个少数类样本,SMOTE具体的算法过程为:(1)对于每一个少数类样本xi,计算其到所有少数类样本的欧氏距离,得到其k个最近的样本。(2)在k个样本中随机选择a个样本(ak),a的大小视少数类样本和多数类样本的比例而定。(3)设xj(j=1,2,a)为这a个小本中的任意一个,利用公式(1)在xi和xj之间随机线性插值合成新的少数类样本xnew。xnew=xi+rand(0,1)|xi-xj(1)原始数据特征提取故障分类SMOTEGANVAETrAdaboost基于数据的方法基于模型的方法辅助数据集正则化元学习迁移学习其他图1小样本故障诊断分类Fig.1Small

16、 sample fault diagnosis classification 多数类 少数类 生成少数类 多数类 少数类 生成少数类多数类少数类生成少数类 多数类 少数类 生成少数类 多数类 少数类 生成少数类图2SMOTE示意图Fig.2Schematic of SMOTE462023,59(6)已经有学者将SMOTE引入故障诊断。其主要利用合成少数类样本训练分类模型,得到更高的诊断精度12。SMOTE是一种经典的平衡数据的算法,少数类样本也可视为小样本,所以SMOTE同样适用于小样本的故障诊断。对于小样本问题,SMOTE从数据扩充的角度出发,在少数类样本之间随机线性插值合成新的样本。传统的

17、过采样方法生成的样本只包含重复的特征,容易导致分类模型过拟合。SMOTE合成的则是原始数据中不存在的新样本,将合成样本与原始样本混合作为分类模型的训练集,此方法对小样本分类精度具有显著提升13。1.1.2SMOTE的应用及不足SMOTE的应用都是基于其合成能力,但是SMOTE存在边缘分布的问题。针对此,有研究人员提出了相应的改进模型14。例如 Chen 等15提出了一种改进的SMOTE模型用以解决合成样本分布边缘化的问题,该模型基于样本距离聚类中心越远越好的原则,引入区域水平和样本稀疏性的概念。在三种不同工况的轴承数据集下,改进 SMOTE 模型的G-mean 值比 SMOTE 高5%,证明了

18、这种改进的模型能够更好地平衡数据集,解决了合成少数类样本冗余的问题。此外,根据数据被误分类的重要程度,Wei等16提出了SCOTE(sample-characteristic oversampling techniquE)模型,该模型用k最近邻模型过滤噪声,分类器选择最小二乘支持向量机对样本进行分类,根据少数类样本被误分类的情况进行重要性排序,最后合成少数类样本。经实验验证,在小样本条件下平均准确率达到95%。虽然 SMOTE 能够合成少数类样本,但是传统的SMOTE模型存在以下问题:(1)在近邻选择时,k值的选择较为主观,当k值选取过小时,生成的样本在局部重叠。(2)SMOTE无法克服数据分

19、布边缘化的问题。具体来说就是当少数类样本分布在分类边界时,新合成的样本也会分布在边界上,且越来越接近分类边界。对小样本而言,SMOTE通过对距离的度量合成少数类样本,新样本与原始样本存在一定的差异。这种差异可能会增加数据的多样性,使得合成的数据包含更多的特征;另一方面,这种差异也可能会模糊分类边界,例如当少数类样本分布在多数类样本数据中,合成的样本存在于分类边界处,会使得分类边界更加模糊。1.2GAN1.2.1GAN理论随着深度生成模型表现出强大的生成能力,该模型也逐渐被引入轴承故障诊断中。GAN是一种最常用的生成模型,在2014年由Goodfellow等17提出。GAN网络是基于零和博弈思想

20、建立的,即博弈中一方收益另一方必然损失。GAN由一个生成器G和一个判别器D组成,生成器G的输入为随机噪声z,一般满足均匀分布或者正态分布等常见分布,输出为生成的数据xg,判别器D的输入为真实数据xr和生成器输出xg,判别器输出为判断结果,其基本模型如图 3 所示。通过模型训练,生成器G的目标是生成更加相似的假样本,判别器D的目标则是不断提高判别真假样本的能力,两者不断博弈最后达到纳什均衡。此时生成的伪样本具有真实样本的特征,可用于辅助训练。设X=x1,x2,xn为真实的n个样本,这些数据满足Pdata(x)分布,且相互独立,z为满足Pz分布的随机噪声。生成器G通过输入z到输出G(z)学习到一个

21、隐式分布Pg(x),GAN 的目的是通过模型训练使得Pg(x)不断地逼近真实数据的分布Pdata(x),即要使得Pg(x)分布与Pdata(x)分布尽可能相似,而 JS(Jensen-Shannon)散度可以描述两个概率分布的差异,其定义为公式(2):JS(Pdata(x)|Pg(x)=12Pdata(x)|Pg(x)+Pg(x)|Pdata(x)(2)Pdata与Pg越相似JS散度越趋向于0。判别器的目标是最大化Pdata(x)和Pg(x)之间的差异,生成器 G的目标是最小化两者之间的差异。训练目标函数可用公式(3)表示:minGmaxDV(G,D)=ExPdatalnD(x)+EzPzln

22、(1-D(G(z)(3)其中,ExPdata为满足Pdata分布的真实数据期望,D(x)表示判别器的输出,G(z)表示生成器的输出,EzPz表示满足隐式分布Pz的噪声的期望。在网络的训练中,先固定生成器G训练辨别器D,然后固定判别器D训练生成器,如此交替训练直至达到纳什均衡。GAN通过生成数据来扩充数据集,GAN最初用于二维图像的生成,所以在小样本轴承故障诊断中,通常用于生成含有故障信息的图像。最常见的做法是对原始数据进行小波变换或者短时傅里叶变换得到时频图,再将其输入GAN生成新的时频图。当然,GAN也可以生成一维信号,这种一维信号可以是原始信号,也可以是对原始信号进行特征提取后的特征信号。

23、小样本问题归根结底是因为样本量不足,难以训练出一个高性能的分类模型,而GAN是最为热门的深度真/假判别器生成器xrxgz图3GAN结构图Fig.3Structure of GAN司伟伟,等:小样本轴承故障诊断研究综述47Computer Engineering and Applications计算机工程与应用2023,59(6)生成模型,可以生成较高质量的样本。在小样本故障诊断中,GAN通过对抗思想生成的样本具有真实、多样的特点,这些样本包含更多的故障信息。分类模型能够从中学习到更多故障特征,以此提高分类精度。1.2.2GAN的应用及不足GAN具有优秀的生成能力,但是GAN也存在梯度消失、模式

24、崩溃等问题18。针对GAN的种种问题,有学者提出了不同的变体GAN作为解决方法19-22。其中很多方法也被引入了轴承故障诊断领域9,23。例如Liu等24将变分自编码与GAN相结合,该方法用编码器学习真实数据的特征,再将这些特征作为生成器的输入,为了避免模式崩溃对辨别器增加梯度惩罚,最后在生成器中加入特征匹配模块防止过拟合,该方法在两个轴承数据集中都取得了98%以上的准确率。此外,一个好的初始化网络参数可以缩短模型收敛时间,所以Dixit等25将模型无关的元学习(model agnostic meta learning,MAML)与有条件的辅助分类器生成对抗网络(conditional aux

25、i-liary classififier GAN,CACGAN)相结合。在样本很少的情况下,用MAML来初始化和更新网络参数,再利用条件标记和辅助分类器生成样本。该模型在轴承数据集下的分类准确率为99.26%。虽然GAN能够在一定程度生成与真实数据相似的数据。但是GAN还存在以下的一些缺点:(1)梯度消失问题。当Pdata分布和Pg分布没有一点重叠时,判别器可以很轻易地分辨真假,又因为生成器G的梯度更新信息来自于判别器D,当判别器性能过高时,生成器只能得到很少的反馈导致其学习过程减慢甚至停止。(2)模式崩溃问题。当生成器生成一小部分类别的数据时,判别器给予较高的评价,导致生成器生成的数据局限在

26、这一小部分以内,即生成数据缺乏多样性。(3)其他问题。包括训练耗费资源多、时间久;难以衡量训练进度;不适合离散数据的生成;模型过于自由而不可控;可解释性差等。虽然GAN能够生成样本,但是仍需要一定量的原始样本对GAN网络进行训练,而在小样本问题中,当有限的样本不足以训练出一个合格的生成器时,用生成器生成的样本扩充数据集甚至会对分类精度造成负影响。GAN 生成样本的条件是判别器无法分辨真假样本,但是判别器判断为真的样本不一定是所需样本,例如在小样本的故障诊断中,GAN生成的样本只包含有限的故障信息,但是判别器判断为真,这种样本对分类模型性能的提升非常有限。1.3VAE1.3.1VAE理论VAE是

27、另一种常见的深度生成模型26,在数据生成方面得到了广泛的应用27。VAE可以学习输入数据的隐含特征,并表示为低维隐变量,然后通过对低维隐变量的采样在输出端重构生成输入的数据。VAE利用神经网络训练得到两个函数(也称为推断网络和生成网络),进而生成输入数据中不包含的数据。模型结构如图4所示。VAE的基本原理是用隐变量z表征原始数据x的分布,通过对参数的优化,利用隐变量z生成数据x?,并使得x与x?尽可能相似,即最大化边缘分布P(x):P(x)=P(x|z)P(z)dz(4)其中,P(x|z)表示由隐变量z生成数据x,P(z)表示隐变量的先验分布,一般为高斯分布。由于隐变量不可直接观测,所以用后验

28、分布P(z|x)对隐变量分布进行度量。同时后验分布P(z|x)很难计算,引入一个近似分布P(z|x)代替后验分布P(z|x)。利用KL散度衡量两者的相似程度,通过优化参数和使得KL散度最小。似然函数的变分下界作为VAE的损失函数:L(,;x)=EQ(z|x)-lnQ(z|x)+lnP(x|z)+lnP(z)(5)VAE的推断网络和生成网络的优化目标都是最大化变分下界函数L(,;x)。假设P(z)服从N(0,1)分布,Q服从N(,2),计算可得:L(,;x)=12j=1d1+ln(j)2-(j)2(j)2+1Ll=1LlnP(x|z)(6)VAE也是从数据角度解决小样本问题,利用现有的小样本生成

29、更多的样本辅助训练分类器。虽然VAE与GAN同为最热门的深度生成模型,但两者有着最本质的区别。GAN通过对抗思想生成数据,难以训练且无法衡量训练进度,而VAE是以自编码器28为基础的生成模型,它将隐变量约束为正态分布再进行采样,生成的数据与原始数据相似而又有不同。1.3.2VAE的应用及不足VAE与GAN都是常用的生成模型,虽然其生成原理不同,但是应用的方法是一致的。VAE在轴承故障诊断中应用也是基于其生成能力29-30。例如Wang等31提出了一种基于条件变分自编码和生成对抗网络的诊断方法,该方法采用条件变分自编码生成故障数据,利用对抗学习机制对网络参数不断优化,在两种不平衡数据zx1x2x

30、nx?1x?2x?nP(z|x)Q(x|z)隐变量生成网络推断网络图4VAE结构图Fig.4Structure of VAE482023,59(6)集下,该方法比其他样本生成方法的分类准确率提高了10%以上。另一方面,VAE也具有强大的提取隐变量的能力,佘博等32利用 VAE 提取隐变量的能力,将提取后的隐变量输入CNN(convolutional neural networks),在两种轴承数据集上的平均准确率分别达到了98.845%和97.62%。相较于另一种生成模型GAN,VAE通过一种显式的方法来找到一个概率密度,并最小化损失函数以得到最优解,GAN则通过对抗式的学习来找到一种平衡,不

31、需要人为给定一个显式的概率密度函数。VAE的优点有两方面,一方面其采用显式的方法,具有一定的可解释性;另一方面其容易训练且训练过程较为稳定,不需要过多的资源就可以训练出一个较好的模型。但同时由于结构和网络的特点,在数据重构中会损失部分精度,所以VAE生成的图片比GAN所生成的更为模糊。VAE通过对隐变量采样而生成数据,而隐变量满足正态分布,这意味着生成数据与原始数据相似又稍有不同。在小样本故障诊断中,原始样本包含的故障信息有限,而VAE生成样本与原始样本相似,其包含的故障信息必然也是有限的,如何生成包含更多的故障信息的样本是VAE未来的发展方向。1.4TrAdaboost1.4.1TrAdab

32、oost理论在用传统的机器学习对轴承进行故障诊断时,有一个基本的假设:训练集和测试集处于同一个分布之下且训练数据足够大33。但事实上,这种假设在现实生活中很难满足。Dai等34提出的TrAdaboost模型可以为解决这种问题提供一种思路,该模型属于迁移学习中基于实例的迁移。TrAdaboost适用于拥有少量标记的目标数据集和大量标记的辅助数据集的情况下,在迁移学习中,前者称为目标域,后者称为源域,且要求源域与目标域有一定的相似性。TrAdaboost的基本思想是将有一定利用价值的源域数据与目标域混合,并根据其被错误分类的情况进行重加权。因为TrAdaboost是对数据重加权,所以将其归类为基于

33、数据的小样本故障诊断方法。简单来说,如果一个源域数据被错误分类,就降低它的权重,因为它对分类模型训练有负影响;如果一个目标域数据被错误分类,就加大它的权重,因为模型不能正确分类此样本。如此迭代下去以达到一个最优的权重,如图5所示。在小样本情况下,难以训练出一个可靠的故障分类模型,但是,如果能够利用相关的辅助数据集,此问题就可以得到有效的解决。例如,实际生产过程中的轴承故障数据为小样本数据,实验室人为制造的轴承故障数据为辅助数据集,可以将实验数据与实际数据重加权,用以训练故障分类模型。虽然TrAdaboost也是从数据角度解决小样本问题,但是与数据生成的方法不同,TrAda-boost是利用有价

34、值的辅助数据集,并对辅助数据集和原始数据进行重加权,这样做不仅可以学习到辅助数据集的有效知识,也避免了无效样本对分类模型的影响。1.4.2TrAdaboost的应用及不足TrAdaboost与之前数据生成的方法最大的不同是它需要额外的辅助数据集,TrAdaboost利用赋予权重的方式将辅助数据集利用起来。在故障诊断领域,源域可以是实验室条件下的理想数据集,目标域则是实际生产过程中的数据,目标域数据难以收集且工况复杂。TrAdaboost已经被用于小样本的轴承故障诊断35。例如,陈仁祥等36利用异分布加权随机抽样对TrAdaboost中的联合训练集进行重组,获得与测试机更加相似的优化联合训练集。

35、经实验验证。该改进模型的准确率比TrAdaboost至少提高了4%。Xiao等37提出一种小样本条件下的故障诊断方法,该方法采用CNN作为分类器,先给联合训练数据集分配一个权值,再采用TrAdaboost模型进行权值的更新。在小样本情况下取得了较高的故障诊断精度。TrAdaboost只调节源域和目标域的数据权重,并不参与特征提取与分类,所以该模型可以与其他高性能的分类模型相结合。但是TrAdaboost的缺点也是明显的,一方面,TrAdaboost要求源域和目标域样本具有一定的相似度,受限于此,当源域与目标域存在较大偏差时,该方法甚至会降低分类模型诊断精度;另一方面,当开始分配权重的时候辅助数

36、据集中无用样本较多,或者迭代次数控制得不好,都会增加分类器的训练难度。1.5总结从数据角度解决小样本问题是最为直观解决方法,基于数据的小样本故障诊断方法大致可分为两种:对原始数据进行扩充的方法和调节权重的方法。虽然这些方法对小样本故障诊断问题有一定的效果,但是也存在一些弊端。其中SMOTE在少数类样本之间随机线性插值合成新的少数类样本,但是当样本存在于分类边缘时,可能会增加分类难度,且新合成的样本只包含有限的故障信息。GAN和VAE都是常用的深度生成模型,源域样本 目标域样本源域样本目标域样本源域样本 目标域样本源域样本 目标域样本图5TrAdaboost示意图Fig.5Schematic o

37、f TrAdaboost司伟伟,等:小样本轴承故障诊断研究综述49Computer Engineering and Applications计算机工程与应用2023,59(6)但是它们都难以训练,并且需要大量的训练资源,当只有少量样本用于训练时,生成的样本往往都是无效样本,难以被分类模型利用。而TrAdaboost通过重加权的方法将辅助数据集利用起来,在一定程度上解决了小样本包含的故障信息不足的问题,但是这种方法的效果取决于源域和目标域数据的相似度,低相似度的数据甚至会降低分类模型的诊断精度。表1总结了各种方法的优缺点。2基于模型的方法基于模型的方法大致包括利用正则化避免模型过拟合,利用迁移学

38、习、元学习等设计一个高性能模型等。相较于基于数据的方法从数据源头解决小样本问题,基于模型的方法则致力于从小样本中获得更多的有用信息。2.1正则化2.1.1正则化理论深度学习具有强大的拟合能力,但是当数据量不充足的情况下将会造成一个严重的问题过拟合。过拟合的直接表现就是模型在训练集上性能较好,但在测试集上性能较差。正则化是解决过拟合问题的常用方法,其示意图如图6所示。L1和L2正则化的主要思想就是在损失函数后添加一个惩罚项,限制权重的输出,降低模型的复杂度,使模型在复杂度和性能之间达到平衡。|L1正则化:Loss+w1L2正则化:Loss+w22(7)其中,Loss为损失函数,w为权值向量,为超

39、参数。需要人为指定,用以控制损失项和正则化项所占的比例。L1正则化对所有参数的惩罚力度都一样,可以让一部分权重变为零,因此产生稀疏性,能够去除某些特征。L2正则化按比例减少权重,可以产生相对平滑的权重,L2能快速下降权重,且防止过拟合的能力优于L1正则化。Dropout是另一种重要的正则化方法,具有计算简单、功能强大的优点。L1、L2是通过修改损失函数来实现正则化,dropout 则是通过修改神经网络实现正则化。其基本思想是随机删除一些节点以达到简化模型的目的,其示意图如图7所示。除了L1、L2和dropout外,防止过拟合的方法还有在损失函数中添加惩罚项,提前结束训练、数据增强等。2.1.2

40、正则化的应用及不足很多深度学习模型都具有强大的特征提取能力,但方法SMOTEGANVAETrAdaboost描述在少数类样本之间随机线性插值合成新的样本通过生成器和辨别器的对抗训练,使得生成器生成与原始样本相似的伪样本VAE可以学习输入数据的隐含特征并表示为低维隐变量,然后通过对隐变量的采样在输出端重构数据TrAdaboost的基本思想是将源域数据与目标域混合,并根据其被错误分类的情况进行重加权优点(1)模型简单,需要的计算资源较少,易于实现(2)可以合成少数类样本,平衡数据集(1)生成数据更加清晰真实(2)不需要复杂的马尔科夫链(1)采用显式的方法,具有一定的可解释性(2)容易训练且训练过程

41、较为稳定TrAdaboos只对数据的权重进行调解,可以轻易与其他分类模型进行结合缺点(1)k值影响合成效果,但是k值的选择较为主观(2)当样本分布在分类边缘时,合成样本会模糊分类边界(1)难以训练,训练耗费的资源多,时间长(2)当辨别器太强时,会发生梯度消失问题。生成器学习过程减慢甚至停止(3)当只有少量样本用于训练时,容易出现模式崩溃问题,生成的样本缺乏多样性(4)其他问题。难以衡量训练进度,可解释性差,不适合离散数据等(1)生成的图片较为模糊(2)后验分布被假设为可分解的高斯分布(3)生成样本包含的故障信息有限(1)要求有辅助数据集,且辅助数据集与原始数据有一定的相似性(2)噪声较多的情况

42、下会增加分类难度表1基于数据的方法比较Table 1Comparison of data-based methods正则化图6正则化示意图Fig.6Schematic of regularization 正则化图7dropout正则化Fig.7Regularization of dropout502023,59(6)是在小样本条件下诊断效果并不理想,正则化是解决小样本问题的一种方法38。黄南天等39在辅助分类生成对抗网络的生成器中引入dropout层,避免了因为过拟合而生成重复的样本,实验证明了在高噪声干扰、样本数量不足的场景下,该方法依然能有较高的准确率。Zhu等40在迁移学习的基础上,引入

43、 L1正则化来避免过拟合,实现模型参数迁移,用长短期记忆网络(long short-term memory,LSTM)进行分类,该方法在小样本变工况的条件下具有良好的精度。正则化方法可以很好地避免过拟合,但是也存在一些问题。例如,L1正则化可以使不重要的特征权重降为零,得到一个稀疏的权值矩阵,经过L1正则化后,不重要的特征权重都为零,剩下的都是对模型影响较大的特征,因此L1正则化也可用于特征选择。L1正则化每次都是缩小固定的权重,而L2正则化是按比例地减小权重,但是权重不会降为零,只会趋向于零,因此L2正则化可以得到一个平滑的权重,L2正则化还需要人为选择参数,通过多次尝试才能选择合适的。而d

44、ropout由于随机失活了部分神经元,所以需要更多的训练数据才能达到理想效果,添加惩罚项的正则化方法需要人为设计惩罚项,必须具备较高的理论知识。2.2元学习2.2.1元学习理论传统的神经网络对新种类任务的适应性差,而元学习(meta-learing)又称学会学习,可以从之前的学习任务掌握知识和经验,快速适应新的任务。机器学习的目标是通过训练数据寻找到输入和输出之间的映射关系。而元学习的目标是通过许多的学习任务掌握快速学习新任务的能力,其示意图如图8所示。元学习可分为基于度量的元学习,初始化参数的元学习,基于梯度优化器的元学习,基于外部记忆单元的元学习和基于数据增强的元学习41。MAML42是一

45、种初始化参数的元学习方法。MAML的训练数据是以任务为单位的,不同的任务有不同的损失函数。训练目标是在所有的任务中学习到一个最优的初始化参数,在面对新的任务时,可以用少量的训练数据达到快速适应新任务、获得良好性能的目的。孪生神经网络是一种基于度量的元学习43。其主要思想是使同标签的样本之间距离更近,不同标签之间的距离更远。在小样本分类时,通过未知样本与已知最近样本之间的距离,确定未知样本的标签。孪生网络将样本对X1、X2输入到两个权值共享的神经网络中,得到它们的低纬特征向量G(X1)、G(X2),并计算它们的距离。不同的元学习方法从不同的角度学会学习。元学习除了有通过任务训练学习初始化参数的M

46、AML外,还有学习预处理数据集的DADA44(differentiable auto-matic data augmentation)和学习网络结构的神经网络架构搜索45(neural architecture search,NAS)等。现有的机器学习方法大多是针对单一学习任务而提出的,在面对样本数量不充足的情况往往难以取得理想效果,而元学习主要针对小样本学习问题。元学习的训练样本和测试样本都是基于任务的,通过对不同任务的训练,学会处理新任务的能力。对小样本而言,元学习通过对其他任务的学习,从而在新的任务上泛化,即使新任务只有少量样本也能取得较好的效果。2.2.2元学习的应用及不足元学习是解决

47、小样本问题的热门方法,在图像分类领域已经得到了广泛的应用,在故障诊断领域也有很多成果46。例如Hu等47考虑到不同任务之间的差异和联系,提出了一种任务排序模型,将元学习训练任务从易到难排序,先学习简单任务,并将学习到的知识推广到复杂任务,通过逐步增加难度提高知识的适应性,然后利用改进的MAML模型初始化参数,在轴承数据集和电力故障数据集中验证了在小样本条件下的有效性。赵晓平等48提出了一种改进的孪生网络模型用于小样本轴承故障诊断,该方法采用LSTM和CNN分别提取故障信号的时间和空间特征,用自适应的网络度量方式对特征向量进行度量,并同时将故障特征输入到故障分类网络,实验验证了在有限样本条件下,

48、准确率均优于各种对比方法。虽然元学习具有解决小样本问题的能力,但前提是拥有足够多的相似历史任务数据,在历史任务不充足的情况下,仍然会出现过拟合的问题,难以适应新任务。现有的元学习模型可以快速适应简单的新任务,对于复杂的新任务,元学习模型的学习效率会变得低下,无法快速处理复杂新任务。另外,元学习通常采用双层优化,每次训练都对应着一次外部操作和多次内部操作,这种双层优化对计算资源和训练时间有着较高的要求。2.3迁移学习2.3.1迁移学习理论迁移学习是另一种解决小样本问题的热门方法,虽然迁移学习和元学习都是致力于将之前学习到的知识转移到新的领域,但是元学习侧重于任务空间,目的是快速适应新的任务,而迁

49、移学习侧重于数据空间,目的是将源域的知识应用到目标域上。其示意图如图9所示。新任务任务1X1f1Y1XFY任务2X2f2Y2任务nXnfnYn图8元学习示意图Fig.8Schematic of meta-learning司伟伟,等:小样本轴承故障诊断研究综述51Computer Engineering and Applications计算机工程与应用2023,59(6)迁移学习可以从源域中迁移标注数据或者知识结构到目标域,完成目标域的任务。根据迁移知识的形式可将迁移学习分为基于实例的迁移学习、基于特征的迁移学习、基于模型的迁移学习和基于关系的迁移学习。迁移成分分析49(transfer com

50、ponent analysis,TCA)是一种基于特征的迁移学习方法。TCA的基本思想是:当源域数据和目标域数据处于不同的分布时,利用一个映射函数将数据映射到高维的再生核希尔伯特空间,并在此空间最小化源域和目标域数据的距离。Long等50对TCA方法进行了改进,提出了一种联合适配分布方法(joint distribution adaptation,JDA),TCA只适应边缘概率分布,而JDA不仅适应边缘概率分布,而且适应源域数据与目标域数据之间的条件概率分布。基于模型的迁移学习是在源域和目标域之间共享模型参数,也就是将之前在源域中通过大量数据训练好的模型应用到目标域上并用少量目标数据进行微调。

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 品牌综合 > 临存文档

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服