基于SMOTE和随机森林的变压器故障诊断研究.pdf

资源描述

1、SHANDONG ELECTRIC POWER山东电力技术第50卷（总第312期）2023年第11期DOI：10.20097/ki.issn1007-9904.2023.11.002基于SMOTE和随机森林的变压器故障诊断研究刘磊1，2，李龙飞1，2，韩雪峰1，2，王冠3，刘洪顺3（1.国网新疆电力有限公司电力科学研究院，新疆乌鲁木齐830011；2.新疆输变电设备极端环境运行与检测技术重点实验室，新疆乌鲁木齐830013；3.山东省特高压输变电技术与装备重点实验室（山东大学），山东济南250061）摘要：人工智能的快速发展为变压器的故障诊断提供了准确率更高的新方法，但是现有的故障诊断模型不利

2、于处理不平衡数据集。为提高变压器故障诊断的准确率，提出利用合成少数类过采样技术（synthetic minority oversampling technique，SMOTE）和随机森林相结合的诊断方法，利用SMOTE算法对变压器油色谱故障数据集的少数类故障样本进行扩充，以平衡各个故障类型数据的数量。随后使用随机森林分类器分别对未经扩充和经SMOTE扩充的数据进行故障识别，研究两者结合使用的效果。诊断结果表明，使用SMOTE对不平衡变压器油色谱故障数据集进行扩充后再进行故障诊断，可以显著提高故障诊断的准确率。另外还分析其他两种故障诊断模型的结果，验证上述结论的同时，得出随机森林分类器是3种故障

3、诊断模型中诊断准确率最高的模型，为变压器进行故障诊断提供一种较为理想的方法。关键词：电力变压器；故障诊断；油中溶解气体分析；SMOTE；随机森林中图分类号：TM933文献标识码：B文章编号：1007-9904（2023）11-0011-09Research on Transformer Fault Diagnosis Based on SMOTE andRandom ForestLIU Lei1，2，LI Longfei1，2，HAN Xuefeng1，2，WANG Guan3，LIU Hongshun3（1.State Grid Xinjiang Electric Power Researc

4、h Institute，Urumqi 830011，China；2.Xinjiang Key Laboratory of Extreme Environment Operation and Detection Technology of Power Transmission&Transformation Equipment，Urumqi 830013，China；3.Shandong Key Laboratory of UHV Transmission and Transformation Technology and Equipment，Jinan 250061，China）Abstract

5、：The rapid development of artificial intelligence provides a new method with higher accuracy for transformer faultdiagnosis，but the existing fault diagnosis models are unfit to handle imbalanced datasets.In order to improve the accuracy oftransformer fault diagnosis，a diagnosis method combining synt

6、hetic minority oversampling technique（SMOTE）and random forestwas proposed.The SMOTE algorithm aimed to expand the minority fault samples of transformer oil chromatography fault datasetsto re-balance the number of data of each fault type.We analyzed the effect on combining SMOTE and random forest.The

7、n，therandom forest classifier was used to identify the faults of the data that had not been expanded and the data that had been expandedby SMOTE respectively.The diagnosis results indicated that the accuracy of fault diagnosis can be significantly improved by usingSMOTE to expand the unbalanced tran

8、sformer oil chromatography fault data set before fault diagnosis.In addition，several otherfault diagnosis models，were investigated in order to illustrate the effectiveness compared to their results of the proposed model.Itis concluded that the random forest classifier is proved with the highest diag

9、nostic accuracy among three fault diagnosis models，providing an ideal method for transformer fault diagnosis.Keywords：power transformation；fault diagnosis；dissolved gas analysis on oil；SMOTE；random forest0引言近年来，我国经济的高速增长带来社会对电能需求的激增，因此保证电网安全稳定地向用户输送基金项目：山东省自然科学基金项目（ZR2020ME196）；国网新疆电力有限公司科技项目（5230DK

10、22000G）。Shandong Provincial Natural Science Foundation（ZR2020ME196）；Science and Technology Project of State Grid Xinjiang Electric PowerCo.，Ltd.（5230DK22000G）.11山东电力技术第50卷（总第312期）2023年第11期电能具有重要的现实意义。变电作为输变电过程不可或缺的一环，其关键部件电力变压器的正常运行与否关系着电网能否可靠地运行，因此需要及时、准确地识别出变压器的故障，从而制定相应的检修计划1。局部放电检测2、测量绝缘电阻3、油中溶解

11、气体分析4（dissolved gas analysis，DGA）等方法均可用于对变压器故障进行检测和诊断，其中DGA凭借较为简单的操作、完整且便于处理分析的数据以及不受外界电磁场影响等优势被广泛应用于电力变压器的状态监测与故障诊断领域5-6。目前国内外基于 DGA 的变压器故障诊断技术大致可分为两大类：传统比值诊断法和与人工智能相结合的智能诊断技术。比值法因阈值和边界的设定简单而在实际应用中得以广泛使用，然而在识别某些故障类型时，这类方法界限过于绝对、编码不完备等问题逐渐显露，不能全面反映变压器的故障状况。智能诊断技术方面，文献 7 使用基于粒子群算法（particle swarm opti

12、mization，PSO）对数据进行处理后，结合支持向量机（support vector machine，SVM）模型利用油中溶解气体数据来判别故障类型；文献 8建立了选择性贝叶斯分类器模型对变压器进行故障诊断，不仅保留了贝叶斯网络处理不确定性问题较强的能力，还提升了收敛速度，在应用中取得理想效果；黄新波等9人采用遗传算法对装袋分类回归树组合算法进行优化，进一步提高了变压器故障诊断模型的泛化能力；重庆大学胡青等10人基于核主成分分析（kernel principle component analysis，KPCA）和随机森林算法构建一套故障诊断系统，利用KPCA将故障样本映射到高维的核空间，使

13、用随机森林在高维核空间对故障分类器进行训练，提高了抗干扰能力和诊断的正确率。这些模型虽简单易行，但是需要大量数据支撑模型训练11，在处理不平衡数据集时，易偏向多数类样本的参数更新而忽略少数类样本的正确分类12，从而导致变压器故障分类的失败。变压器油色谱故障数据集属于不平衡数据集，采样方法被广泛应用于不平衡数据集的预处理中，主要包括欠采样、过采样与混合采样。欠采样通过减少多数类样本的数量使其与少数类样本达到平衡，过采样则是增加少数类的样本数量使数据平衡13。文献 14 使用欠采样方法使每种类型的样本数量达到平衡，但若数据集规模不大，则可能丢失重要信息；文献 15 通过聚类的方法尽可能提取具有代表

14、性的少数类样本特征，虽然包含了更全面的特征，但是欠采样方法所具有的特征丢失缺点仍然存在；赵月爱等16人对简单复制少数类样本的随机过采样进行了研究，虽也可到达数据均衡的效果，但是存在明显的过拟合问题。Chawla等17人提出的经典合成少数类过采样技术（synthetic minorityoversampling technique，SMOTE）算法具有改善过拟合问题的优点，受到研究学者青睐。因油色谱故障数据集中各类样本数量较少，故不宜使用欠采样方法对数据集进行预处理，否则可能会丢失部分潜在信息，使诊断结果不准确，故可考虑使用SMOTE算法对数据进行扩充，但其与性能优异的随机森林

15、模型结合使用进行故障诊断的效果有待进一步研究。提出SMOTE和随机森林相结合的诊断方法，即在使用随机森林进行诊断之前，利用SMOTE算法对变压器油色谱故障数据集的少数类故障样本进行扩充，结果表明，使用SMOTE对不平衡变压器油色谱故障数据集进行扩充后再进行故障诊断可以显著提高故障诊断的准确率。1基于SMOTE的变压器油色谱故障数据集的扩充1.1变压器油色谱故障数据集特征不平衡数据集是指各个类别的样本量极不均衡的数据集。变压器在使用过程中通常出现故障的次数较少，并且发生各类故障的频率差异较大，导致监测设备最终检测到的总数据较少且不同故障类型对应的数据量有明显差别，本文使用的原变压器油色谱故障数据

16、集的数据分布如图1所示。由图1可知，在原变压器油色谱故障数据集中，高能放电故障样本数为48，远远多于其他几类故障的样本数，因此变压器油色谱故障数据集满足不平衡数据集的条件，属于不平衡数据集。而现有的变压器故障诊断模型大多要求输入的数据是均衡的，故需要对变压器油色谱故障数据集中的少数类样本进行扩充，以平衡各类故障样本的数量。1.2变压器油色谱故障数据集的归一化处理数据归一化是一种通过无量纲的处理手段，将12具有波函数性质的物理数值变成具有某种相对关系的相对值，缩小量值之间落差的有效方法18。H2、CH4、C2H6、C2H4、C2H2、CO、CO27 种气体为变压器油中溶解气体的主要成分，本文选取

17、 H2、CH4、C2H6、C2H4、C2H25种特征气体作为算法的输入，但这几种图1原变压器油色谱故障数据集的数据分布Fig.1 Data distribution of the original transformer oilchromatogram fault datasets气体数据量值差别较大，为了均衡随机森林分类器对各类数据的敏感性，对收集到的数据进行归一化处理，使各指标处于同一数量级。为降低个别数据数值过大或过小对故障诊断结果的影响，对变压器油色谱故障数据集进行归一化处理，即为：H2=CH2C（1）e=CeCC2H6+CC2H4+CC2H2+CCH4（2）式中：C为 5 种特征气体

18、油色谱故障数据之和；CH2、CCH4、CC2H6、CC2H4、CC2H2分别为H2、CH4、C2H6、C2H4、C2H2的油色谱故障数据；H2为 H2的归一化处理结果；Ce、e分别为CH4、C2H6、C2H4、C2H2其中一种气体的油色谱故障数据及对应的归一化处理结果。部分油色谱故障数据如表1所示。表1部分油色谱故障数据（体积分数）Table 1 Partial oil chromatography fault data故障类型局部放电低能放电高能放电中低温过热高温过热数据类型归一化前/（cm3/m3）归一化后/pu归一化前/（cm3/m3）归一化后/pu归一化前/（cm3/m3）归一化后/p

19、u归一化前/（cm3/m3）归一化后/pu归一化前/（cm3/m3）归一化后/puCH42 3970.938 5200.277 81300.241 6180.692 39660.308 4C2H61570.061 5110.152 8160.029 740.153 82990.095 5C2H400130.180 61530.284 440.153 81 8100.577 9C2H200280.388 92390.444 200570.018 2H232 9300.928 0780.520 05450.503 2120.315 82900.084 7由表1可得，原故障中5种特征气体的数据量值差

20、别较大，如 CH4和 C2H6之间，经过归一化处理之后，所有数据均处于（0，1）之间，各个数据指标的数量级达成一致，有利于后续的故障诊断。1.变压器油色谱故障数据集扩充的具体实施SMOTE 算法增加少数类样本的方法不是对其进行简单复制粘贴，而是对少数类样本进行分析，采用线性插值的方法在两个少数类样本间合成新的样本添加到数据集中，以增加少数类的样本数量，达到数据平衡的目的。扩充原理如图 2 所示。图2中，五角星代表变压器少数类故障的样本数据，搜索其最邻近的k个少数类样本，按照数据集的向刘磊，等：基于SMOTE和随机森林的变压器故障诊断研究13山东电力技术第50卷（总第312期）2023年第11期

21、上采样倍率n从k个样本中随机抽取n个样本，关联xi和这n个样本，进行随机插值，得到图中表示为正方形的新的少数类样本 xnew。重复以上步骤，通过多次的随机插值实现对每一类少数样本的多维扩充，即对每一少数故障类型的5种特征气体数据均进行扩充。图2SMOTE算法插值说明Fig.2 Illustration of SMOTE algorithm interpolation利用 SMOTE算法对变压器油色谱故障数据集进行扩充的步骤如下。1）在一个不平衡数据集中，从少数类样本中选取一个样本 xi，该样本便作为根样本进行新样本的合成。2）根据式（3），计算每种少数类故障类型中选为根样本的数据到相应的少数类

22、样本集中所有样本的距离d，得到每个根样本k（k一般为奇数）个邻近的同类别的样本。d=i=1m(xi-yi)2（3）式中：xi为每个少数类样本集中的根样本；yi为每个少数类样本集中除根样本以外的样本；m为少数类样本集中除根样本以外的样本的数量。经计算可得，本文中k=5。3）计算变压器油色谱故障数据集中多数类与少数类间的不平衡程度，即计算高能放电与局部放电、低能放电、中低温过热、高温过热之间的不平衡程度，根据计算出的不平衡程度，根据式（4）选取相应的向上采样倍率n，即从xi的k个邻近样本中随机选取n个样本作为辅助样本记为y1，y2，yn。n=f(IL)（4）式中：f（）为对四舍五入运算函数；IL为

23、不平衡程度。4）在变压器少数类故障类型的根样本xi和随机选择的辅助样本 yi之间进行随机插值，如式（5）所示。分别合成n个对应的少数类变压器故障样本pi，以实现对变压器故障类型少数类样本的扩充，并且进行的均是多维扩充，即对每一少数故障类型的 5种特征气体数据都进行了扩充，达到数据平衡的目的。pi=xi+r(yi-xi),i=1,2,n（5）式中：r为一个（0，1）内的随机数。SMOTE算法的采样是在少数类数据样本点xi与其最邻近数据样本的连线上进行随机插值操作，这种方法可看作是直线插值，是按照一定的数学规则有目的地进行数据构造，能够有效避免盲目性和局限性，进而改善随机过采样导致的过拟合问题。S

24、MOTE算法扩充前后变压器油色谱故障数据集分布如图 3所示。图3SMOTE扩充前后变压器油色谱故障数据集的分布对比Fig.3 Comparison of the distribution of transformer oilchromatographic fault datasets before and afterSMOTE expansion由图3可知，SMOTE扩充前的原变压器油色谱故障数据集中，高能放电故障样本数远远多于其他几类故障的样本数，因此变压器油色谱故障数据集属于不平衡数据集，高能放电故障作为多数类样本，无须对其进行扩充，其他几类故障类型为少数类样本，需要进行扩充。SMOTE扩

25、充后，5种故障类型的样本数均达到48个，各故障类型样本数一致，达到样本均衡，可避免因各故障类型样本数量差距过大14影响变压器故障诊断结果。2基于随机森林故障诊断的SMOTE扩充效果分析2.1基于随机森林的变压器故障诊断决策树是随机森林的基本单元，构建合适准确的决策树是实现随机森林算法的基础。常用的量化指标有信息增益、基尼指数和均方差3种，其中信息增益、基尼指数是作为分类问题的构建指标，而均方差则是用在回归问题中，另外本研究中选择分类指标时应考虑原故障数据集为不平衡数据集这一特点，避免信息增益率偏好取值类别较少特征的问题19，故将选取基尼指数这一指标作为决策树节点分类的标准。随机森林是以决策树为

26、估计器的Bagging算法，是多个决策树分类模型的组合。使用随机森林对变压器进行故障诊断的流程如图 4 所示。具体过程为：图4使用随机森林对变压器进行故障诊断流程Fig.4 Fault diagnosis process of transformerusing random forest1）参数选取。针对研究问题选取随机森林参数，包括决策树数量100、节点分裂评价准则为基尼指数、叶子结点的最大数量50。2）随机化抽取。使用 bootstrap抽样方法，从划分为训练集的变压器油色谱故障数据集中随机地、有放回地选取部分特征量样本形成h个特征子样本集，并且选取出的每个特征子样本集的样本容量与原训练集

27、相同，即若原训练集含有N个样本，则h个特征子样本集中的每一个数据集所含样本数均为N个。2.2故障诊断结果准确率分析分别将未经 SMOTE扩充的原变压器油色谱故障数据集和经SMOTE扩充后的变压器油色谱故障数据集按照7：3的比例划分为训练集和测试集，使用训练集对随机森林模型进行训练，然后使用测试集验证模型的准确率。图 5、图 6 分别为使用未经 SMOTE 扩充的原数据集作为输入和使用经SMOTE扩充后的数据集作为输入的故障诊断混淆矩阵热力图。矩阵的每一行代表实际的类别，每一列代表预测的类别，对角线上的数字代表正确预测的结果。图5使用未经SMOTE扩充的原数据集作为输入的故障诊断混淆矩阵热力图F

28、ig.5 Fault diagnosis confusion matrix thermodynamicdiagram using original dataset without using expanded bySMOTE as input由图5可知，随机森林对未经SMOTE扩充的原变压器油色谱故障数据集5种故障类型诊断结果的准确率分别为 100%、84.2%、93.9%、72.7%、76.9%，对训练集诊断结果的总准确率为 86.6%，测试集为88.6%。刘磊，等：基于SMOTE和随机森林的变压器故障诊断研究15山东电力技术第50卷（总第312期）2023年第11期图6使用SMOTE扩充后

29、的原数据集作为输入的故障诊断混淆矩阵热力图Fig.6 Fault diagnosis confusion matrix thermodynamicdiagram using SMOTE expanded original datset as input由图6可知，随机森林对经过SMOTE扩充后的原变压器油色谱故障数据集5种故障类型诊断结果的准确率分别为 100%、97.1%、97.1%、88.2%、93.9%，对训练集诊断结果的总准确率为 95.2%，测试集为93.1%。通过对比分析可知，与未经SMOTE扩充的原变压器油色谱故障数据集相比，使用经 SMOTE 扩充后的变压器油色谱故

30、障数据集作为随机森林模型的输入可以明显提高各个故障类型诊断结果的准确率，因此使总体的准确率也得到大幅提升。可见，使用 SMOTE 算法对不平衡的变压器油色谱故障数据集进行扩充，达到数据平衡后再使用随机森林模型进行故障诊断，有利于提高诊断结果的准确率。2.3其他故障诊断模型为进一步验证使用 SMOTE算法对不平衡的变压器油色谱故障数据集进行扩充有利于提高变压器故障诊断模型的准确率这一结论，同时直观地展现使用随机森林进行变压器故障诊断的优势，介绍另外几种变压器故障诊断的模型，并分别对未经SMOTE扩充的原变压器油色谱故障数据集和经SMOTE扩充后的变压器油色谱故障数据集进行故障的识别，然后分析和比

31、较几种模型的诊断结果。2.3.1朴素贝叶斯网络贝叶斯分类方法以统计学为基础，根据已有的样本数据实例，利用先验信息对事件的后验概率进行预测20。使用朴素贝叶斯网络对未经SMOTE扩充的原变压器油色谱故障数据集和经SMOTE扩充后的变压器油色谱故障数据集进行故障诊断，结果如图7所示。（a）未经SMOTE扩充（b）SMOTE扩充后图7朴素贝叶斯网络故障诊断混淆矩阵热力图Fig.7 Fault diagnosis confusion matrix thermodynamicdiagram using naive bayesian network16朴素贝叶斯网络对未经 SMOTE扩充的原变压器油色谱故

32、障数据集5种故障类型诊断结果的准确率分别为 83.3%、84.2%、90.9%、81.8%、84.6%，训练集诊断结果的总准确率为86.6%，测试集为82.9%；对经过SMOTE扩充后的原变压器油色谱故障数据集 5 种故障类型诊断结果的准确率分别为 93.9%、91.2%、88.2%、88.2%、87.9%，训练集诊断结果的总准确率为89.9%，测试集为91.7%。2.3.2SVM模型SVM仍然是使用数学中的统计学思想对电力变压器故障类型进行识别和判断的一种分类器模型。使用SVM对未经SMOTE扩充的原变压器油色谱故障数据集和经SMOTE扩充后的变压器油色谱故障数据集进行故障诊断，结果如图8所

33、示。由图8可见，SVM对未经SMOTE扩充的原变压器油色谱故障数据集5种故障类型诊断结果的准确率分别为 83.3%、89.5%、93.9%、72.7%、84.6%，训练集诊断结果的总准确率为87.8%，测试集为80%；对经过SMOTE扩充后的原变压器油色谱故障数据集5种故障类型诊断结果的准确率分别为97%、94.1%、85.3%、91.2%、90.9%，训练集诊断结果的总准确率为91.7%，测试集为92.4%。使用随机森林、朴素贝叶斯网络、支持向量机模型对未经SMOTE扩充的原变压器油色谱故障数据集和扩充后的变压器油色谱故障数据集进行故障诊断，结果如表2所示。（a）未经SMOTE扩充（b）SM

34、OTE扩充后图8SVM故障诊断混淆矩阵热力图Fig.8 Fault diagnosis confusion matrix thermodynamicdiagram using SVM表23种模型故障诊断准确率汇总Table 2 Comparision of fault diagnosis accuracy ofthree models单位：%故障类型局部放电低能放电高能放电中低温过热高温过热总体随机森林扩充前100.084.293.972.776.986.6扩充后100.097.197.188.293.995.2朴素贝叶斯扩充前83.384.290.981.884.686.6扩充后93.991

35、.288.288.287.989.9支持向量机扩充前83.389.593.972.784.687.8扩充后97.094.185.391.290.991.7由表 2 可知，对 3 种故障诊断模型，使用经SMOTE扩充后的变压器油色谱故障数据集作为模型输入所得诊断结果的准确率，无论从单个故障类型还是整体角度都比使用未经SMOTE扩充的原数据集有较为明显的提高，进一步验证了使用SMOTE算法对不平衡的变压器油色谱故障数据集进行扩充后再进行故障诊断的准确率高于扩充前。同时可以看出，对未扩充前的不平衡数据，3种模型诊断准确率大致相同，但是对于扩充后的平衡数据集，使用随机森林对变压器进行故障诊断的准刘磊，

36、等：基于SMOTE和随机森林的变压器故障诊断研究17山东电力技术第50卷（总第312期）2023年第11期确率远高于其他两种模型，由此可知随机森林模型在变压器故障诊断中具有较高的准确率。同时其又具有缓解局部最小值、过拟合等问题的优点，因此，使用随机森林对变压器进行故障诊断是一个较为理想的选择。3结论针对现有故障诊断技术存在处理不平衡数据集过拟合、准确率低等问题，首先对原变压器油色谱故障诊断数据集进行预处理，然后通过比较选择一个故障诊断准确率较高的模型对变压器的故障进行识别与诊断，并对SMOTE扩充有效性进行验证。1）变压器油色谱故障诊断数据集属于不平衡数据集，而目前所使用的基于油中溶解气体分析

37、的变压器故障智能诊断技术，在处理不平衡数据集时，为了达到最高的准确率，易对数据量少的变压器故障类型出现误判，从而导致故障类型识别的失败。因此采用SMOTE算法通过随机插值对归一化后的变压器油色谱故障数据中的少数类样本进行扩充，平衡了各个故障类型样本的数量，为故障诊断打下良好的基础。2）利用处理好的数据采用随机森林分类器对变压器进行故障诊断，通过对未经扩充的原数据和经SMOTE扩充后的数据的诊断结果准确率的对比分析，验证使用SMOTE对不平衡变压器油色谱故障数据集进行扩充后再进行故障诊断，可以显著提高故障诊断的准确率。3）使用其他两种诊断模型对 SMOTE扩充有效性进行验证，并通过与随机森林诊断

38、准确率的对比，确定随机森林分类器是3种故障诊断模型中诊断准确率最高的模型，为变压器故障诊断提供方法选择。参考文献1汪可，李金忠，张书琦，等.变压器故障诊断用油中溶解气体新特征参量 J.中国电机工程学报，2016，36（23）：6570-6578.WANG Ke，LI Jinzhong，ZHANG Shuqi，et al.New features derivedfrom dissolved gas analysis for fault diagnosis of power transformersJ.Proceedings of the CSEE，2016，36（23）：6570-6578.2李

39、清泉，李斯盟，司雯，等.基于局部放电的电力变压器油纸绝缘状态评估关键问题分析 J.高电压技术，2017，43（8）：2558-2565.LI Qingquan，LI Simeng，SI Wen，et al.Analysis of the key problemabout insulation condition assessment of oil-paper in powertransformersbasedonpartialdischarge J.HighVoltageEngineering，2017，43（8）：2558-2565.3国家能源局.电力设备预防性试验规程：DL/T 59620

40、21 S.北京：中国电力出版社，2021.4亓秋波，于乃海，齐国栋，等.二次取气法在油中溶解气体分析中的应用研究 J.山东电力技术，2021，48（3）：42-46.QI Qiubo，YU Naihai，QI Guodong，et al.Research and applicationof secondary degassing in dissolved gas analysis in transformer oilJ.Shandong Electric Power，2021，48（3）：42-46.5杨童亮，胡东，唐超，等.基于SMA-VMD-GRU模型的变压器油中溶解气体含量预测 J.电工

41、技术学报，2023，38（1）：117-130.YANG Tongliang，HU Dong，TANG Chao，et al.Prediction ofdissolved gas content in transformer oil based on SMA-VMD-GRU modelJ.Transactions of China Electrotechnical Society，2023，38（1）：117-130.6刘展程，王爽，唐波.基于SSA-BiGRU-Attention模型的变压器油中溶解气体含量预测 J.高电压技术，2022，48（8）：2972-2981.LIU Zhanche

42、ng，WANG Shuang，TANG Bo.Prediction of dissolvedgas content in transformer oil based on SSA-BiGRU-Attentionmodel J.High Voltage Engineering，2022，48（8）：2972-2981.7董明，屈彦明，周孟戈，等.基于组合决策树的油浸式电力变压器故障诊断 J.中国电机工程学报，2005，25（16）：35-41.DONG Ming，QU Yanming，ZHOU Mengge，et al.Fault diagnosis ofoil-immersed power t

43、ransformer using combinatorial decision treeJ.Proceedings of the CSEE，2005，25（16）：35-41.8赵文清.基于选择性贝叶斯分类器的变压器故障诊断 J.电工文摘，2011（5）：34-37.ZHAO Wenqing.Transformer fault diagnosis based on selectivebayes classifier J.Electrical Abstract，2011（5）：34-37.9黄新波，李文君子，宋桐，等.采用遗传算法优化装袋分类回归树组合算法的变压器故障诊断 J.高电压技术，201

44、6，42（5）：1617-1623.HUANG Xinbo，LI Wenjunzi，SONG Tong，et al.Application ofbagging-CARTalgorithmoptimizedbygeneticalgorithmintransformer fault diagnosis J.High Voltage Technology，2016，42（5）：1617-1623.10 胡青，孙才新，杜林，等.核主成分分析与随机森林相结合的变压器故障诊断方法 J.高电压技术，2010，36（7）：1725-1729.HU Qing，SUN Caixin，DU Lin，et al.Tr

45、ansformer fault diagnosismethod using random forests and kernel principle componentanalysis J.High Voltage Technology，2010，36（7）：1725-1729.11 祁寿贤，胡荣辉，王伟，等.基于SMOTE平衡数据集的BP神经网络变压器故障诊断 J.山东电力技术，2022，49（4）：15-22.QI Shouxian，HU Ronghui，WANG Wei，et al.Transformer faultdiagnosis method based on SMOTE balan

46、ced data set and BPneural network J.Shandong Electric Power，2022，49（4）：15-22.1812 HE H，GARCIA E A.Learning from imbalanced dataJ.IEEETransactions on Knowledge&Data Engineering，2008（9）：1263-1284.13 周玉，孙红玉，房倩，等.不平衡数据集分类方法研究综述 J.计算机应用研究，2022，39（6）：1615-1621.ZHOU Yu，SUN Hongyu，FANG Qian，et al.Review of

47、imbalanceddata classificationJ.Application Research of Computers，2022，39（6）：1615-1621.14 DAS B，KRISHNAN N C，COOK D J.RACOG and wRACOG：Twoprobabilistic oversampling techniquesJ.IEEE Transactions onKnowledge and Data Engineering，2015，17（1）：222-234.15YEN S，LEE Y.Cluster based under-sampling approaches

48、forimbalanced datadistributions J .ExpertSystemsWith Applications，2009，36（3）：5718-5727.16 赵月爱，陈俊杰.AdaBoost算法在网络入侵检测中的实验研究J.计算机应用与软件，2010，27（4）：127-129.ZHAO Yueai，CHEN Junjie.On experimenting adaboost algorithmin network intrusion detectionJ.Computer Application andSoftware，2010，27（4）：127-129.17 CHAW

49、LA N V，BOWYER K W，HALL L O，et al.SMOTE：syntheticminorityover-samplingtechnique J.JournalofArtificial Intelligence Research，2002，16（1）：321-357.18 汤荣志，段会川，孙海涛.SVM训练数据归一化研究 J.山东师范大学学报（自然科学版），2016，31（4）：60-65.TANG Rongzhi，DUAN Huichuan，SUN Haitao.Research on datanormalization for SVM trainingJ.Journal o

50、f Shandong NormalUniversity（Natural Science），2016，31（4）：60-65.19 殷作洋，吴肖锋，仲伟坤.基于随机森林的变压器故障识别与实例分析 J.电子测量技术，2020，43（23）：63-67.YIN Zuoyang，WU Xiaofeng，ZHONG Weikun.Transformer faultrecognitionbasedonrandomforestandcaseanalysis J.Electronic Measurement Technology，2020，43（23）：63-67.20 雍明超，吕侠，周钟，等.基于朴素贝叶斯

展开阅读全文