收藏 分销(赏)

基于BERT-CNN的城轨列控车载设备故障分类.pdf

上传人:自信****多点 文档编号:627221 上传时间:2024-01-18 格式:PDF 页数:10 大小:1.50MB
下载 相关 举报
基于BERT-CNN的城轨列控车载设备故障分类.pdf_第1页
第1页 / 共10页
基于BERT-CNN的城轨列控车载设备故障分类.pdf_第2页
第2页 / 共10页
基于BERT-CNN的城轨列控车载设备故障分类.pdf_第3页
第3页 / 共10页
基于BERT-CNN的城轨列控车载设备故障分类.pdf_第4页
第4页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、【交通物流/Transportation Logistics】Vol.40 No.5Sep.2023第 40 卷 第 5 期2023 年 9 月深圳大学学报理工版Journal of Shenzhen University Science and Engineeringhttp:/基于BERT-CNN的城轨列控车载设备故障分类徐倩1,2,张雷1,2,欧冬秀1,2,贺云鹏31)同济大学上海市轨道交通结构耐久与系统安全重点实验室,上海 201804;2)同济大学交通运输工程学院,上海 201804;3)中铁第四勘察设计院集团有限公司,湖北武汉 430063摘 要:针对基于通信的城市轨道交通列车控制

2、系统车载设备故障排查困难,故障维修日志由于信息零散、语义模糊及归类混乱等导致的传统文本分布式表示与浅层机器学习算法分类精度低等问题,提出一种基于焦点损失函数 BERT-CNN(bidirectional encoder representations from transformers-convolutional neural network)的故障分类方法,建立故障处理及结论、故障现象的关系模型利用预训练好的BERT模型微调获取故障现象的词向量,充分捕捉融合了上下文的双向语义并关注重点词汇;利用卷积神经网络(convolutional neural network,CNN)进行训练,改进损失

3、函数以缓解数据类别不平衡引起的性能下降问题通过对某车载信号工区数据进行实验,对比基于交叉熵损失函数的 BERT-CNN、单一 BERT 模型与word2vec-CNN(word to vector-CNN)方法,基于焦点损失函数BERT-CNN方法在分类指标上最优,对某些样本数量少的类别能够更精准分类研究结果有助于建立更完善的智能运维故障案例库关键词:交通运输工程;城轨列控车载设备;BERT语言模型;卷积神经网络;故障分类;类别不平衡中图分类号:U284.95;TP391.1 文献标志码:A DOI:10.3724/SP.J.1249.2023.05529Fault classificatio

4、n method for on-board equipment of metro train control system based on BERT-CNNXU Qian 1,2,ZHANG Lei 1,2,OU Dongxiu 1,2,and HE Yunpeng 31)Shanghai Key Laboratory of Rail Infrastructure Durability and System Safety,Tongji University,Shanghai 201804,P.R.China2)College of Transportation Engineering,Ton

5、gji University,Shanghai 201804,P.R.China3)China Railway Siyuan Survey and Design Group Co.Ltd.,Wuhan 430063,Hubei Province,P.R.ChinaAbstract:The on-board equipment of metro communication based train control(CBTC)is facing laborious maintenance problems,and its textual maintenance logs are criticized

6、 for having excessively fragmented information,ambiguous semantics and confused categorization,resulting in low classification metrics by traditional textual distributed representation with basic machine learning algorithms.A fault classification method based on bidirectional encoder representations

7、 from transformers-convolutional neural network(BERT-CNN)with the focal loss function is proposed to establish the relationship model between the fault processing and conclusion and the fault phenomena.The pre-trained bidirectional encoder representations from transformers(BERT)model is fine-tuned t

8、o fully capture the bidirectional semantics and focus on the keywords to produce better word vectors of the fault phenomena.In order to counteract the classification performance degradation brought by data category imbalance,word vectors are trained using a convolutional neural network(CNN)model wit

9、h the focal loss function.According to the experimental results conducted by the dataset from an on-board signaling department,the proposed Received:2022-10-12;Accepted:2023-02-28;Online(CNKI):2023-08-25Foundation:National Natural Science Foundation of China(52172329);National Key Research and Devel

10、opment Program of China(2022YFB4300501);Project of Science and Technology Commission of Shanghai Municipality(23DZ2204900)Corresponding author:Professor ZHANG Lei()Citation:XU Qian,ZHANG Lei,OU Dongxiu,et al.Fault classification method for on-board equipment of metro train control system based on BE

11、RT-CNN J.Journal of Shenzhen University Science and Engineering,2023,40(5):529-538.(in Chinese)第 40 卷深圳大学学报理工版http:/method has the best classification performance among models of BERT-CNN,single BERT and word to vector-CNN(word2vec-CNN)using cross-entropy loss function,and it is also better to corre

12、ctly classify categories with few samples and contributes to the development of a more comprehensive library of fault cases for intelligent operation and maintenance.Key words:transportation engineering;on-board equipment of metro train control system;BERT language model;convolutional neural network

13、(CNN);fault classification;category imbalance基 于 通 信 的 列 车 控 制(communication based train control,CBTC)系统为城市轨道的安全、高效运营提供保障1CBTC车载设备软硬件功能集成度高,在信号总故障中占比大,故障情况复杂多样,人工排查较为困难列控车载设备故障数据形式包括维修人员记录的故障维修工作日志、车载安全计算机记录的行车日志及一些组件的应用事件日志(application event log,AElog)2自然语言处理模型已从统计语言模型、神经网络语言模型发展到了预训练语言模型3-4传统文本分布式

14、模型表示包括词袋模型、向量空间模型、词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)、独热编码及整数编码,但这些方法容易造成高维稀疏特征词嵌入模型如word2vec(word to vector)、全局词向量表示(global vectors for word representation,GloVe)、基于语言模型的词嵌入方法(embeddings from language models,ELMO)、生成式预训练 transformer(generative pre-trained transformer,GPT)、基于t

15、ransformers的双向编 码 器 表 示(bidirectional encoder representations from transformers,BERT)等模型受到研究者关注2022年11月开发的基于GPT-3.5架构的对话式应用ChatGPT,提高了大众获取有效信息的效率应用于文本分类的浅层机器学习模型包括朴素贝叶斯、k 近邻、支持向量机、随机森林及 XGBoost算法等谢明军等5利用主题模型有监督线性判 别 分 析(supervised-latent Dirichlet allocation,sLDA)对城轨地面设备故障日志进行语义聚类,并用朴素贝叶斯模型进行分类刘江等6针

16、对CTCS2-200H型列控车载行车日志中的故障数据,利用XGBoost算法对8种典型故障类型进行分类但基于传统语言模型与浅层机器学习算法的故障分类方法在应对更复杂语义与更大数据量的数据集时,存在效率低与准确率低等问题应用于文本分类的深度学习算法包括卷积神经网络(convolutional neural network,CNN)、递归神经网络及其扩展,如双向长短时记忆网络周璐婕等7利用 word2vec 中连续词袋(continuous bag-of-words,CBOW)模型获取高铁列控车载设备自动列车防护与控制单元(automatic train protection and contro

17、l unit,ATP-CU)的应用设备记录(application equipment log,AElog)数据的词向量,再利用CNN算法实现故障分类,精确率达0.873 2AElog数据是统一规范化的英文故障语句,识别相对简单.预训练语言模型的通用范式是先在大规模文本中训练出通用的语言表示,再通过微调实现领域适应利用BERT模型分析CBTC故障维修工作日志的研究相对较少CINELLI等8利用transformer与深度神经网络对每日钻井报告中的文本故障数据进行分类LI等9利用BERT模型进行瞬态工作参数处理,用于检测当前仪器测量值与理论值之间的偏差夏林中等10研究了BERT模型在短文本分析中

18、的优势智能运维需要大量历史数据建立完备的故障案例库,以提供维修建议,但受限于传统语言模型及机器算法在故障小样本、样本不均衡类别的弱分析能力,城轨车载设备故障维修日志尚未得到充分利用本研究利用BERT-CNN模型对CBTC车载设备故障维修日志进行故障分类,并引入基于焦点损失(focal loss)函数的CNN模型进行优化,解决传统文本分布式表示与浅层机器学习模型及传统交叉熵损失函数在样本不平衡时分析精度较低的问题1CBTC车载设备结构及其故障维修日志1.1CBTC车载设备结构装备 CBTC 系统的列车车载设备包括 CBTC、车辆设备及接口设备等车头和车尾的车载控制器(vehicle on-boa

19、rd controller,VOBC)通过通信线缆相连本研究考虑的CBTC是有人值守下的列车自动运行,车地通信采用交叉感应环线方式,列车主用模式为CBTC控制模式,后备模式为点式级与联锁级控制模式530第 5 期徐倩,等:基于BERT-CNN的城轨列控车载设备故障分类http:/车载机柜上的设备包括:应答器传输单元(balise transmission module,BTM)主机模块、车载列车自动防护(automatic train protection,ATP)系统主机及列车自动运行驾驶(automatic train operation,ATO)系统主机11BTM主机模块与应答器接收天线

20、结合实现应答器报文解析及列车位置矫正等功能;在ATP防护下,ATO实现列车的自动驾驶、区间运行自动调整、列车门和站台门自动开关以及精确停车;车载ATP设备根据获取的移动授权信息和线路上障碍物信息,结合电子地图,计算紧急制动速度并实现超速防护,保证列车不越过移动授权防护范围及防护速度ATP还具有确定列车停站位置、列车完整性检测、列车轮径矫正、车门允许及防护等功能12-13VOBC到车辆主要通过接口继电器单元(interface relay unit,IRU)与司法记录单元(juridical recording unit,JRU)记录运行数据此外,还包括测速测距设备、辅助驾驶设备及通信设备1.2

21、CBTC车载设备故障维修日志CBTC车载设备故障维修日志由序号、故障时间、故障现象、故障地点、故障代码、及故障过程与处理情况组成本研究仅列出故障分类所需信息,如表1所示可见,故障处理及结论易造成传统文本处理算法精度低的原因包括:短文本,即由几个词到几十个词组成,文本长度及涵盖内容可能存在较大差异,所包含信息量有限但表达了重要内容重要局部特征和上下文信息均能影响故障所属类别,不同故障类别的故障描述可能存在相似度较高的特征 模糊现象,即由于维修人员对故障的理解和描述习惯的不同,存在多词同义或歧义的现象,如表1中记录7“接近传感器线缆接口有松动情况”与记录8“车底接近传感器插头接触不良”的语义一致此

22、外,故障过程及故障致因归类可能出现混乱.文本预处理过程中,首先,将每日的故障维修日志汇总;其次,对文本清洗,去除特殊符号和空格,保持中英文词语统一,去除停用词;最后,依据咨询维修人员的维修经验及分析大量故障案例,分析故障现象与故障类别关系,为每条故障纪录创建标签2基于BERT-CNN故障分类模型图2为用于故障文本分类的BERT-CNN模型结构将预处理后的数据转换为向量输入到BERT模型中,生成动态词向量,同时将词向量与一维位置向量拼接,在句子中标记位置,为模型提供更多有效信息其次,将拼接好的词向量矩阵分别通过卷积层提取得到不同层次的特征向量最后,将特征向量经过池化层进行平均池化,降低维度后的向

23、量通过全连接层及softmax分类器生成最终的故障类别CNN模型是处理故障日志这类非时间序列、短文本的有效方法,与BiLSTM模型相比,CNN结构简单、训练速度快14,便于及时更新案例库2.1基于BERT模型的词向量获取BERT模型是字符级的语言模型,根据自带的BertTokenizer工具将文本分割成单个字符的最小单位token为了提高模型对句子的特征表示能力和?BTM?(2?2)?TODATP(3?2)?ATO?DCS?图图1装备CBTC系统的列车车载设备结构Fig.1(Color online)Schematic diagram of CBTC on-board equipment.53

24、1第 40 卷深圳大学学报理工版http:/泛化能力,BERT模型使用掩码语言模型和下句预测训练方法BERT模型的输入层由token编码、段编码及位置编码组成15其中,token编码是指将每个字或标记映射到1个高维向量空间的过程,示例记录编码后为E没,E有,;段编码是指区分不同段落或句子中的字或标记的过程,示例记录编码后为EA,EB,;位置编码为每个字或标记在序列中分 配 1 个 唯 一 的 向 量,示 例 记 录 编 码 后 为E1,E2,将故障文本整句话中每个字符的初始向量矩阵Xe,i输入至加载预训练参数的BERT模型,BERT将12个transformer的encoder模块串联,每一层

25、的编码结果作为下一层的输入,以便在不同层的编码模块中均能自动提取文本的不同语言特征多头注意力层通过计算词与词之间的关联度来调整词的权重,反映了该词与这句话中所有词之间的相互关系以及每个词的重要程度对Xe,i进行线性变换,得到当前句子每个字符的查询向量Q、键向量K和值向量V16,计算为Q=Xe,i WQ(1)K=Xe,i WK(2)V=Xe,i WV(3)表表1 CBTC车载设备故障维修日志示例Table 1 Fault maintenance logs examples of CBTC on-board equipment序号1234故障现象门关状态丢失导致紧急制动VOBC失去通信门未关好维调

26、报某车在某站突发紧急制动故障处理及结论没有门关闭锁闭信号,没有右门、左门允许的回采并且在没有门允许的情况下,司机打开了司机室门数据下载后发现无代码,VOBC检查无异常根据故障过程及故障分析,某车以限速驾驶模式出场投入失败在停车点门不能关闭,只报故障数据下载后发现两侧车端无代码,检查各个线缆以及板卡均无异常,测量各天线电阻正常司机在未正确转换auto模式的情况下按压发车按钮发车未果序号5678故障现象VOBC超时故障对位故障对位故障对位故障故障处理及结论VOBC没有接收到牵引命令的回采,此为列车牵引的输出与输入命令不一致,怀疑是IRU内部继电器故障或者板卡故障导致查看接近传感器,某车接近传感器的

27、接口检查良好,但灵敏度偏低检查某个接近传感器,发现线缆接口有松动情况,已重新校准,并将线缆绑扎发现接近传感器接头接触不良,晃动插头时,感应灯会出现闪断现象,现用扎带重新捆扎牢固add&normadd&normfeed forward?CLSSEPSEPE?E?E?E?E?E?E?:?,?;1 1?;?1212EAEAEAEAEAEAEAEBEBBEE2E3E4E5E6E1E7E8E9NE?BERT?BERT wwm ext-?1?2?N?、?focal_loss、?fc+softmax?12?encoder?CNNencoder(?transformer?encoder)?;?BERT?BER

28、T?图图2用于故障文本分类的BERT-CNN模型结构Fig.2Structural diagram of BERT-CNN model for fault text classification.532第 5 期徐倩,等:基于BERT-CNN的城轨列控车载设备故障分类http:/其中,WQ、WK及WV分别为查询向量映射矩阵、键向量映射矩阵及值向量映射矩阵单头自注意力机制为Attention(Q,K,V)=softmax()QKTdkV(4)其中,dk是缩放因子用于缩放点积通常使用多头自注意力机制进行并行计算,用于捕捉不同维度的文本特征16,即MultiHead(Q,K,V)=Concat(he

29、ad1,headh)WO(5)headi=Attention(QWQi,KWKi,VWVi)(6)其中,WO、WQi、WKi及WVi为系数矩阵;headi表示第i头的自注意力计算结果为解决具备复杂网络结构、层数更深BERT模型可能出现的训练缓慢和梯度消失问题,引入add&norm层以上结果输入前馈神经网络,由两个线性变换组成,并且在两次线性变换中加入ReLU激活函数,增强encoder的非线性拟合能力再次输入add&norm层经过12个encoder,最终将长度 N=50 的故障文本转换为 N 768 维度的词向量Wi2.2基于CNN的故障分类将 BERT 的输出结果yCLS作为 CNN 的词

30、嵌入层,在卷积层中应用卷积运算,提取输入词向量矩阵Wi的高阶局部上下文语义特征1个卷积操作使用1个卷积核f Rl N产生1个特征向量hj,其中,l和N分别表示卷积核高度(词窗口大小)和卷积核宽度(词向量维度)为捕获不同粒度的特征,本研究选择l=2,3,4进行卷积操作,hj=ReLU(conv(W,f)+bj)(7)其中,ReLU是一种常用的非线性激活函数;conv为卷积操作;bj R为偏置项卷积层输出结果是经过多个卷积核所生成特征向量hj的集合H=h1,h2,hn,n为提取的特征向量数量池化层的作用是特征降维,压缩数据和参数,抑制过拟合现象,在多分支全局最大池化层对特征数据做全局最大池化处理输

31、入向量P经过全连接层后,得到最终输出Fc为Fc=(WfP+bf)(8)其中,P为故障类别;Wf为P的权重;bf为偏置项;为激活函数,本研究选择ReLU作为激活函数.通过softmax进行归一化处理,得到每个标签的预测概率,选取概率最大的标签作为该文本的分类标签label,label=argmax(softmax(Fc)(9)传统CNN模型采用最小化交叉熵损失函数的方法,即Losscross_entropy=-1Di=1Dj=1Cpijlnpij(10)其中,D为训练样本数;C为目标故障分类数量;pij为实际故障类别;pij为预测故障类别为改进类别不平衡及难分类的样本对分类效果的影响,本研究引入

32、了焦点损失函数.通过调节权重因子j和,控制类别间的损失权重17对于易分类的样本减小其权重,对于难分类的样本增加其权重,使模型更加关注难以分类的样本将每个类别的损失相加即可得到多类别问题下的焦点损失函数Lossfocal_loss=-1Di=1Dj=1Cj(1-pij)pijlnpij(11)3实验与讨论3.1实验环境及数据集本 实 验 硬 件 环 境 为 Intel(R)Core(TM)i7-10700F CPU、16 GByte RAM 及 NVIDIA GeForce RTX 3070 8 GByte GPU;软件环境为Windows 10操作系统、基于 Python3.9 的 Pytor

33、ch1.8.0 框架,使用 transformer 库及哈工大讯飞联合实验室提出的BERT中文预训练参数库BERT-wwm-ext数据集基于某条城轨线路20172021年CBTC车载设备故障维修日志,原始数据集共有5 537条故障记录故障代码统计见图3,故障代码由“编码-内容描述”组成原始数据中“门未关好”故障现象所对应的“4B在停车点门不能关闭”、“对位故障”对应的“4E对位故障”及“VOBC失去通信”对应的“无代码”,这3类故障现象尽管占比很大,但故障处理方式及结论单一,实际维修过程中可通过故障代码及关键字词与故障案例数据库直接匹配,无需进行深层次语义理解因此,数据预处理时对这3类故障进行

34、欠采样处理,保留200条,最后获得1 398条具有复杂多样的故障现象、维修人员需要排查较大的范围而处置困难的故障记录本研究数据集也包括实际日志中包含的轨旁设533第 40 卷深圳大学学报理工版http:/备故障与车辆故障信息依据维修人员经验及大量故障案例分析,提出故障现象与故障类别关系,并标注预处理后各类别的数量,如图4其中,包含14种故障类别,分别标注为F1F14将故障现象对应的故障处理及结论作为模型训练输入,根据致因结果标注类别作为标签,BERT-CNN用于挖掘关联关系检修人员通过已识别出的故障类别缩小检修范围,进而提高现场运维效率,完善历史故障案例库F1类故障由车辆方配合处理;F2类通过

35、加强司机操作规范来改善;F3类的处理如图5,其中,速度传感器故障与测速雷达的检修由车辆信号工区人员检修,应答器故障由地面信号工区检修;F4、F5及F9类由地面信号工区处理;F6、F8、F10、F11、F13及F14类由车载信号工区处理;F12类由通信工区配合处理;F7为突发事件随着城轨运营里程的增加,同类型的列控车载设备及不同线路条件也会积累更多的故障维修纪录,进而使偶发性故障累积本研究的BERT-CNN模型具备分析庞大数据量的能力,理论上数据量的增加能进一步提升BERT-CNN模型下的车载设备故障分类效果,建立更完备的故障案例库实际上由于列控系统的安全苛求系统特性,漏洞在运营过程中被不断修正

36、,不会导致故障维修纪录的大幅增加,因此,研究城轨列控车载设备故障分类仍然是小样本、样本类别不平衡的分类问题,具有重要应用价值3.2实验设计及多评价指标预处理时将训练集与测试集比例划分为7 3,在进行多种模型效果对比时,考虑到样本分布的影响,每组实验均使用相同的训练集与测试集多分1?,?,.%510 924A?,?134,2.43%?,73,1.32%?,24,0.43%48,28,0.51%?33ATO,33,0.60%?39,44,0.80%?56 TWR?,47,0.85%38?,?,.%2133 86?,75313 63?,.%4E,?1 655,29.97%?4B?,2 468,44.

37、69%?图图3某城轨线路的CBTC车载设备故障代码统计Fig.3(Color online)Statistical chart of fault codes for CBTC on-board equipment from a certain metro line.F2F1F3F9F5F8F4F11F6F12F7?F14F10F13?ATO?(13)?(43)?ATOATP77)?(TOD?(17)?(115)?(22)?、?、?VCC?(46)?(262)?(304)?(16)?(21)?(73)ATP?(189)?(200)?AM?VOBC?TOD?ATP?TOD?VOBC?AM?/?EB

38、?EB?图图4故障现象与故障类别间关系及样本分布Fig.4Relationship and distribution between fault phenomena and classification categories.?/?F3?图图5F3类别故障处理示例Fig.5Process example diagram of F3 fault category.534第 5 期徐倩,等:基于BERT-CNN的城轨列控车载设备故障分类http:/类的分类指标定义如下准确率为预测正确的结果数量占总样本的百分比,计算为Accuracy=i=1NTPii=1NTPi+i=1NFPi+i=1NFNi+i

39、=1NTNi(12)其中,TPi为第 i 类样本的真正例(true positive,TP),即样本实际为正,预测结果为正;FPi为第i类样本的假正例(false positive,FP),即样本实际为负,预测结果为正;FNi为第 i 类样本的假负例(false negative,FN),即样本实际为正,预测结果为负;TNi为第 i 类样本的真负例(true negative,TN),即样本实际为负,预测结果为负;N为类别的总数量准确率评价模型整体性能,但不能真实反映小样本类别的分类效果精确率Precision衡量某一类别预测结果的准确性,计算为Precision=i=1NTPii=1NTPi

40、+i=1NFPi(13)召回率 Recall 衡量某一类别预测结果的覆盖面,计算为Recall=i=1NTPii=1NTPi+i=1NFNi(14)F1分数是综合考虑精确率与召回率的分类指标,计算为F1=2 Precision RecallPrecision+Recall(15)宏平均Macro_avg先对每一类别统计指标值,然后再对所有类求算术平均值微平均Micro_avg不区分类别,先对数据集中每一类别进行统计建立全局混淆矩阵,然后计算相应指标加权平均Weight_avg是宏平均的改进,考虑了每个类别样本数量在总样本中的占比如精确率的宏平均、微平均及加权平均分别为Macro_avgP=1n

41、i=1NPi(16)Micro_avgP=i=1NTPii=1NTPi+i=1NFPi(17)Weight_avgP=i=1NTPi+FNiTotalPi(18)其中,Total表示总样本数量.分类报告可获取准确率、各指标的宏平均及加权平均通过调节超参数的值,选择最优的一组超参数实现评价指标最优BERT-CNN及对比模型的训练参数和超参数如下1)word2vec-CNN 模型采用 word2vec 中的CBOW模型,以1个词语的上下文作为输入来预测这个词语本身;批处理大小batch_size=32,窗口宽度window=4,词向量维度为200,3层一维卷积操作Conv1D的卷积核数量filte

42、rs均取128,卷积核的长度kernel_size分别取2、3、4,输入周围的填充数量padding均为same,激活函数均为ReLU,丢弃 比 例 dropout=0.1,隐 藏 层 维 度 hidden_size=7682)单一BERT及BERT-CNN模型单一BERT可直接用于故障分类;BERT-CNN是将BERT作为分类任务的词嵌入层设置学习率 lr=5 10-5,dropout=0.1单一BERT与基于焦点损失函数的BERT-CNN模型(简记为word2vec-CNN(focal loss)中batch_size=32,基于交叉熵损失函数的BERT-CNN 模 型(简 记 为 wor

43、d2vec-CNN(交 叉 熵)中batch_size=64BERT-CNN 的 CNN 部分参数与word2vec-CNN一致3.3BERT-CNN 与 word2vec-CNN、BERT 模型的故障分类效果比较验证损失值(Val_loss)为每个轮次结束后训练集和测试集上计算得到的损失函数值,用以判断模型的训练情况图6为BERT-CNN、word2vec-CNN及BERT 模型的Val_loss 下降过程可见,BERT-CNN(交叉熵)、BERT模型训练拟合效果达到最优的轮次最少,仅需训练4轮后,损失值降至0.2左右,且在前 10 次迭代训练后已经趋于稳定但word2vec-CNN算法在迭

44、代60次情况下,验证损失值仍有波动焦点损失函数的参数取值会影响故障分类性能,结果见表2可见,当=0.25,=0.5时,能够找到不均衡类别间、易分与难分样本间的平衡点,此时Macro_avgF1值最高多种方法获得的分类指标评价结果如表3,其中,下标R表示召回率由于故障类别存在严重的数据不平衡问题,准确率并不能完全反映真实情况,因此,更关注精确率及召回率,并得到以下结论535第 40 卷深圳大学学报理工版http:/1)word2vec-CNN(交叉熵)相比word2vec-SVM的各指标均有提升相比于SVM,CNN可以通过滑动卷积核在不同位置提取特征,因此,CNN可以捕捉到文本中的局部相关性信息

45、CNN还可以使用不同大小的卷积核,因此,能够在不同尺度下捕获特征SVM默认是基于铰链损失(hinge loss),基于交叉熵的CNN相比基于hinge loss的SVM可以更好地优化模型分类效果2)BERT、基于交叉熵的BERT-CNN与基于交叉熵的word2vec-CNN相比,各指标均有很大提升,表明BERT能够有效挖掘短文本的重要信息3)基于焦点损失函数的word2vec-CNN与基于交叉熵的word2vec-CNN相比提升较小,表明限制word2vec分类效果的原因可能不只是类别不平衡问题,还包括模型本身4)单一 BERT 与基于交叉熵的 BERT-CNN 相比差别不大,但引入焦点损失函

46、数后在表3中的各项指标均提升明显,表明焦点损失函数能够改善不平衡数据的整体分类效果故障类别不平衡问题会导致分类器在预测时更倾向于数量较多的类别,进而忽略数量较少的类别可通过以下方法进行改进:数据级方法,如从多数类别中删除样本的欠采样方法、为少数类别生成新样本的过采样方法或两者的混合方法;算法级方法,如代价敏感学习或类别权重调整;集成方法,如将一种数据级或算法级方法与集成学习中的AdaBoost方法结合在数据层面,本研究对故障现象频次高且重复率高的类型进行欠采样处理在算法层面,由于BERT是一种预训练语言模型,在通用语言表示学习基础上,通过较少的参数调整提高模型效果;BERT能够根据上下文信息对

47、文本进行更准确理解,因此,在处理短文本上比word2vec更有优势CNN中引入焦点损失函数,给表表3 word2vec及BERT结合SVM或不同损失函数下CNN的分类评价Table 3 Classification evaluation for word2vec and BERT combined with SVM or CNN with different loss functions指标评价AccuracyMacro_avgPWeight_avgPMacro_avgRWeight_avgRMacro_avgF1Weight_avgF1word2vec-SVM0.753 90.793 50.

48、909 30.753 90.926 20.763 20.926 2word2vec-CNN(交叉熵)0.888 10.901 60.933 10.753 80.888 10.798 00.901 1word2vec-CNN(focal loss)0.911 30.876 70.940 50.786 40.892 90.812 10.907 2BERT0.950 50.900 50.950 60.874 20.950 50.885 00.949 6BERT-CNN(交叉熵)0.954 80.898 40.958 10.924 00.954 80.904 10.955 1BERT-CNN(foca

49、l loss)0.971 40.962 30.972 00.937 40.971 40.948 10.971 0注:灰底数值代表最优值BERT CNN-(?)word2vec CNN-BERT0.273 50.220 00.140 03.02.52.01.51.00.5?Val loss_0102030405060图图6BERT-CNN、word2vec-CNN及BERT模型的Val_loss下降过程Fig.6Diagram of Val_loss reductions of BERT-CNN model(solid line),word2vec-CNN model(dotted line)a

50、nd BERT model(dashed line),respectively.表表2 焦点损失函数中参数取值Table 2 Different parameter values of focal loss function0.200.250.250.500.500.250.50.50.71.02.02.0Macro_avgF10.904 10.948 10.923 10.923 10.939 60.874 6注:灰底数值代表最优值小样本类别赋予较高权重,使模型在训练时更关注小样本类别选用混淆矩阵展示测试集上各类别的判别结果,如图7其中,矩阵的行和列分别为预测类别和真实类别,对角线上的数值表示

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服