基于联邦学习和深度注意力残差网络的异物侵限辅助判断.pdf

资源描述

1、第 63 卷第 8 期2023 年8 月铁道建筑Railway EngineeringVol.63 No.8August 2023文章编号：10031995（2023）08014504基于联邦学习和深度注意力残差网络的异物侵限辅助判断李清欣1 徐贵红2 周雯21.中国铁道科学研究院研究生部，北京 100081；2.中国铁道科学研究院集团有限公司电子计算技术研究所，北京 100081摘要针对铁路异物侵限检测数据持有方之间数据不互通，传统机器学习方式数据集缺乏，模型泛化能力弱的问题，提出了一种融合横向联邦学习、深度残差网络和压缩激励网络的异物侵限图像分类辅助判断方法。将压缩激励网络嵌入深度

2、残差网络中，在特征通道上对特征进行压缩和激励，然后重新分配各通道的权重，以增强有用特征通道，提高模型特征提取的准确性；利用多方数据协作训练模型，通过联邦学习技术解决铁路数据应用过程中存在的数据孤岛问题，减少对训练样本数据量的依赖，同时提供隐私保护。经对一铁路局铁路异物侵限监测系统拍摄的图像数据进行测试，所提出的方法能够在保护数据持有方隐私的前提下，整合多方数据协作训练，为铁路数据安全共享提供新思路。关键词高速铁路；铁路异物侵限；试验研究；联邦学习；数据孤岛；残差网络；压缩激励网络中图分类号 U238；TP181 文献标识码 A DOI：10.3969/j.issn.10031995.2023

3、.08.28引用格式：李清欣，徐贵红，周雯.基于联邦学习和深度注意力残差网络的异物侵限辅助判断 J.铁道建筑，2023，63（8）：145148.铁路异物侵限检测是铁路运营过程中安全检测的一项重要内容。异物侵限是指由于外力作用或意外，落石、行人等铁路异物侵入铁路限界，对铁路轨道或运行列车构成安全威胁的现象。铁路异物侵限判断属于机器学习中的图像分类问题。传统图像分类方法中，通常使用方向梯度直方图（Histogram of Oriented Gradients，HOG）、尺度不变特征变换（Scale Invariant Feature Transform，SIFT）、局部

4、二值模式（Local Binary Pattern，LBP）等算法提取特征。当浅层特征不明显时，传统特征提取算法的分类效果并不理想。深度学习能够提取图像更深层次、具有区分能力的特征，在图像分类、检测等方面具有精度高和智能化的优势。近年来，深度学习尤其是卷积神经网络得到了快速发展，并逐渐成为一种新型图像处理技术。深度学习模型识别准确率的好坏很大程度上依赖于训练样本数量。在训练样本量不足的情况下，深度学习模型会产生过度拟合，从而导致模型训练结果畸变。此外，随着数据确权的出现，越来越多单位开始重视数据的所有权和使用权，减少了数据在各单位间的流通，导致出现数据孤岛现象。数据融合需求与数据隐私保

5、护需求之间的矛盾日益突出。一方面人工智能需要大量训练数据以获得良好的训练效果，另一方面数据安全和隐私保护得到了世界范围内的广泛重视1。在此背景下，联邦学习（Federated Learning）应运而生。Google公司于 2017年首次提出了联邦学习的概念2，它是一种具有隐私保护功能的机器学习机制。该机制在多个数据持有方不共享各自数据的情况下，仅交换模型中间训练参数，联合进行模型训练。理想情况下，联邦学习模式可获得与中心化学习（Centralized Learning）模式相近的模型识别准确率3。本文提出一种基于联邦学习和深度注意力残差网络的铁路异物侵限分类辅助判断方法。

6、将压缩激励网络嵌入深度残差网络（Deep residual network，ResNet）中构成深度注意力残差网络，通过对特征通道重新分配权重以提取图像更深层次的特征。结合联邦学习进一步提升异物侵限特征的提取效果，同时保收稿日期：20230217；修回日期：20230529基金项目：国家自然科学基金高铁联合基金（U2268202）第一作者：李清欣(1998)，女，硕士研究生。E-mail：通信作者：徐贵红(1969)，女，研究员，博士。E-mail：铁道建筑第 63 卷护各数据持有方隐私，为解决异物侵限模型训练样本匮乏及铁路数据安全共享问题提供思路。1 模型建立 1.1SEResNet18网络

7、结构分析随着神经网络模型层数的增加，较浅层网络的参数可能会逐渐趋于0，致使梯度无法更新，出现梯度消失现象。为解决这一问题，ResNet在两个非线性卷积层外部通过跳跃连接实现恒等映射，提高模型训练过程中信息的传播效率。ResNet由一系列残差单元串联而成。残差单元的基本结构如图1所示。其中：x为残差单元的输入数据；f(x)为最终理想输出数据。压缩激励网络（Squeeze and Excitation Network，SENet）是一个经典的注意力机制网络模型。SENet通过关注特征通道之间的相关性以提升神经网络的表征能力，训练过程包含压缩、激励和重分配三个阶段。模型输入特征图的尺寸为w h c。

8、其中：w、h分别为图像的宽度和高度；c为图像的特征通道数。将SENet嵌入到含有跳跃链接的深度学习网络模块中。压缩阶段，通过全局平均池化压缩特征图，将其维度转化为11c，以获得全局的感受野。激励阶段，使用一个多层感知机（MultiLayer Perceptron，MLP）学习每个特征通道的权重。通过定义缩放参数实现对特征通道的降维和增维操作，自适应学习不同特征通道间的相关性。重分配阶段，通过乘法对特征通道加权，完成对原始特征图的重标定，以增强有用的特征通道，提高模型特征提取的准确性。本文选取18层的ResNet即ResNet18作为神经网络基础模型，嵌入SENet构成SEResNet18，作为

9、训练模型。SEResNet18的基本构成单元如图2所示。SENet的核心是通过网络的损失确定特征通道的权重，从而赋予高效的特征图大权重，低效或无用的特征图小权重，进而重新标定输入特征图，获得更好的训练效果。ResNet18中嵌入SENet后可以去除强噪声及冗余信息，避免在学习异物特征时产生更多错误，提高模型的识别效率。1.2横向联邦学习总体架构设计联邦学习是一种多方参与联合训练的分布式机器学习方法4，具有数据不动、模型动的特性。与传统中心化学习相比，联邦学习没有中心服务器汇总数据的过程，保护了各数据持有方的隐私。本文采用客户端-中心服务器的横向联邦学习架构5。整个学习过程分为客户端本地模型训练

10、和中心服务器端参数聚合两部分，如图3所示。1.3横向联邦学习客户端与中心服务器端工作各数据持有方作为客户端参与联邦学习训练。多个客户端构成集合C=C1，C2，CN，其中N为客户端数量。第k个客户端Ck的本地数据集记为Dk。客户端首先下载中心服务器端初始化的全局训练模型（m）和模型参数（w0），然后进行Dk的本地特征提取和模型训练。图1残差单元基本结构图2SEResNet18的基本构成单元图3横向联邦学习架构146第 8 期李清欣等：基于联邦学习和深度注意力残差网络的异物侵限辅助判断设Lk(w)为Ck的目标函数，用该客户端所有输入数据的平均损失表示，计算式为Lk(w)=1|Dk|i=1|Dk|l

11、i(w)（1）式中：li(w)为Ck的损失函数。本文采用交叉熵函数作为损失函数，计算式为H(y，y)=-i=1nyilogyi（2）式中：y和y分别为真实标签和预测标签，所有标签共有n个类别。为求解目标函数的最小值，模型训练采用随机梯度下降法不断寻优。设第t个通信轮次下，客户端Ck本地训练的模型参数为wt，k。其迭代更新计算式为wi，k=wi-1，k-Lk(wi-1，k)i E（3）式中：wi，k为在第i个本地训练轮次下Ck的模型参数；为学习率；E为客户端本地训练的总轮次。客户端本地训练结束，将wt，k上传至中心服务器端完成中间参数的聚合后，客户端再次下载聚合参数进行本地模型更新，并进行下一轮

12、次的训练直至全局模型收敛。中心服务器端负责统筹各客户端的本地模型训练并生成最终的聚合模型。联邦学习训练开始前，中心服务器端协调各客户端，确定每个全局通信轮次参与训练的客户端数量c(c N)、全局训练模型m及全局通信总轮次T，完成系统初始化配置。联邦学习训练开始后，中心服务器端使用联邦平均算法6对每个通信轮次t(t T)下接收到的各客户端模型参数(wt，k)进行聚合，得到聚合后的模型参数(wt)。计算式为wt=k=1crkwt，k（4）式中：rk为Dk在整个模型训练过程中所有数据集中的占比，rk=|Dk|/k=1c|Dk|。1.4总体流程Step1 中心服务器端完成全局训练模型（m）和模型参数（

13、w0）的初始配置，将m下发至各客户端。Step2 客户端从中心服务器端下载模型参数(wt-1)。Step3 判定当前通信轮次(t)的值。若t=1，客户端进行Dk预处理，输入至网络模型；若1 t T，则训练结束。Step4 各客户端进行本地训练，得到更新后的模型(mt，k)和参数(w t，k)，将w t，k上传至中心服务器端。Step5 中心服务器端使用联邦平均算法对wt，k进行聚合，将聚合后的模型参数(wt)下发至各客户端。Step6 重复 Step2Step5，直至模型收敛，训练结束。2 试验验证 2.1数据集的收集与处理试验所用数据集为某铁路局铁路异物侵限监测系统拍摄的图像。该数据集由正常

14、和有异物两类图像组成。将整个数据集以8 2的比例划分为训练集和验证集。数据集分布见表1。2.2试验结果评价指标采用分类准确率（Racc）对模型训练结果进行评价。Racc=Ap+AnAp+Fp+An+Fn（5）式中：Ap、An、Fp、Fn分别表示真阳（正常样本分类正确）的数量、真阴（有异物样本分类正确）的数量、假阳（有异物样本被分类为正常样本）的数量和假阴（正常样本被分类为有异物样本）的数量。2.3试验过程与结果分析为了在保护参与方数据隐私的前提下提高模型准确率，设置5个客户端模拟5个铁路局。将原始数据集随机划分为5个不相交的子集，作为各客户端的本地数据。各子集以9 1的比例划分为训练集和验证集

15、。基于SEResNet18网络模型，在铁路异物侵限检测数据集相同的情况下分别通过中心化学习和联邦学习训练模型，对比两者所得模型识别准确率的差异。设置联邦学习每轮次参与训练的客户端数量为5。训练过程中，保证两者参数设定一致，全局通信轮次均为20，局部迭代次数均为3，优化器均采用随机梯度下降法不断寻优。两种学习方法所得模型训练结果对比见图4。由图4可知：中心化学习模型、联邦学习模型分类准确率分别为86.9%、84.6%。两种学习方法训练结果差异较小。与中心化学习相比，联邦学习由各参表1数据集分布类别训练集验证集正常图像4 3601 090有异物图像2 290570总数量6 6501 660图4两种

16、学习方法所得模型训练结果对比147铁道建筑第 63 卷与方在本地进行模型训练，仅将模型更新的参数上传至中心服务器端进行汇总。各参与方数据在整个学习过程中不出本地，能够有效防止数据泄露，保证各客户端的数据隐私。联邦学习模型具有更快的损失收敛速度，这样可减少模型训练时间，降低成本。3 结语针对铁路数据领域存在的数据孤岛问题和隐私保护需求，本文提出了一种基于联邦学习和深度注意力残差网络的铁路异物侵限分类辅助判断方法。在ResNet18中嵌入SENet，可以自适应地选择和加权不同特征通道的信息，从而更加准确地捕捉到图像中的关键信息。应用联邦学习技术，保证数据持有方本地数据不出域，在保护铁路数据持有方

17、隐私的基础上有效整合多方数据资源完成协作训练。经对一铁路局铁路异物侵限监测系统拍摄的图像数据进行测试，本文所提出的方法能够在保证铁路数据共享安全与隐私保护的同时，通过多方协作训练，获得与中心化学习模型接近的识别准确率。参考文献1 杨强.AI与数据隐私保护：联邦学习的破解之道 J.信息安全研究，2019，5（11）：961-965.2 MCMAHAN B，MOORE E，RAMAGE D，et al.Communication-efficient Learning of Deep Networks from Decentralized Data C/Society for Artificial

18、Intelligence and Statistics.Proceedings of the 20th International Conference on Artificial Intelligence and Statistics.Brookline：JMLR，Inc.and Microtome，2017：1273-1282.3 LI T，SAHU A K，TALWALKAR A，et al.Federated Learning：Challenges，Methods，and Future Directions J.IEEE Signal Processing Magazine，2020，

19、37（3）：50-60.4KAIROUZ P，MCMAHAN H B，AVENT B，et al.Advances and Open Problems in Federated LearningEB/OL.（2019-12-10）2023-02-15.https：/arxiv.org/abs/1912.04977.5 梁天恺，曾碧，陈光.联邦学习综述：概念、技术、应用与挑战 J.计算机应用，2022，42（12）：3651-3662.6 KONEN J，MCMAHAN H B，RAMAGE D，et al.Federated Optimization：Distributed Machine L

20、earning for On-Device IntelligenceEB/OL.（2016-10-08）2023-02-15.https：/arxiv.org/abs/1610.02527，2016.Auxiliary Judgment of Foreign Object Intrusion Detection Based on Federated Learning and Deep Attention Residual NetworkLI Qingxin1，XU Guihong2，ZHOU Wen21.Postgraduate Department，China Academy of Rail

21、way Sciences，Beijing 100081，China；2.Institute of Computing Technologies，China Academy of Railway Sciences Corporation Limited，Beijing 100081，ChinaAbstract Currently，the problems are challenging including incompatibility of data between holders of railway foreign object intrusion detection data，lack

22、of data sets in traditional machine learning methods，and weak model generalization ability.An auxiliary judgment method for image classification of foreign object intrusion was proposed，integrating horizontal federated learning，deep residual network and squeeze and excitation network.The squeeze and

23、 excitation network is embedded in the deep residual network，the features are squeezed and excited on the feature channels，and then the weights of each channel are re-assigned to enhance the useful feature channels and improve the accuracy of feature extraction.The multi-party data cooperation train

24、ing model was used to solve the data island problem existing in the application process of railway data through federated learning technology，reducing the dependence on the amount of training sample data and providing privacy protection at the same time.Through a test of the image data captured by t

25、he railway foreign object intrusion monitoring system of a railway bureau，the proposed method can combine multi-party data for collaborative training under the premise of protecting data privacy，and provide a new idea for the safe sharing of railway data.Key words high speed railway；railway foreign

26、object intrusion；experimental research；federated learning；data island；residual network；squeeze and excitation networkCitation format：LI Qingxin，XU Guihong，ZHOU Wen.Auxiliary Judgment of Foreign Object Intrusion Detection Based on Federated Learning and Deep Attention Residual Network J.Railway Engineering，2023，63（8）：145148.（编辑：葛全红校对：刘莉）148

展开阅读全文