1、基于深度学习的铁路异物侵限检测模型徐鑫,潘杰,曹利安,罗伟,谢松(中国铁路成都局集团有限公司科学技术研究所,成都610081)摘要:为保障铁路运营安全,防范行人、家畜、野生动物等侵入铁路线路,提出基于深度学习的铁路异物侵入界限(简称:侵限)检测模型。针对铁路异物侵限的图像数据(简称:数据)集缺乏且难以采集的现实情况,通过多种途径自建铁路场景专用的异物侵限数据集,并引入多种数据增强技术,对数据集进行扩增,既增强了样本的多样性、又能有效避免训练阶段过拟合现象的发生;针对铁路场景的特殊性,对 YOLO(YouOnlyLookOnce)v5 深度学习模型结构进行一些适应性改进,将其作为铁路异物侵限检测
2、模型,在自制数据集样本上进行训练和测试。测试结果表明,该模型的检测准确率达到88%以上,能够用于铁路现场对异物侵限的检测。关键词:铁路异物侵限;检测模型;YOLOv5 模型;图像识别;数据增强;图像数据集中图分类号:U229:TP391.4文献标识码:ADOI:10.3969/j.issn.1005-8451.2023.10.02Railway foreign object intrusion detection model based on deep learningXUXin,PANJie,CAOLian,LUOWei,XIESong(ScienceandTechnologyResearc
3、hInstitute,ChinaRailwayChengduGroupCo.Ltd.,Chengdu610081,China)Abstract:Toensurethesafetyofrailwaytransportandpreventpedestrians,livestock,wildanimals,andotherobjectsfrominvadingtherailway,thispaperproposedamethodofusingdeeplearningtechnologytodetectrailwayforeignobjectintrusiononmonitoringvideoalon
4、gtherailway.Inresponsetotherealityofthelackanddifficultyincollectingimagedatasetforrailwayforeignobjectintrusionlimits,thepaperconstructedadedicatedforeignobjectintrusionlimitdatasetforrailwayscenesthroughvariousmeans,andintroducedvariousdataaugmentationtechniquestoexpandthedataset.Thisnotonlyenhanc
5、edthediversityofthesamples,butalsoeffectivelyavoidedoverfittingduringthetrainingstage;ThepaperfocusedontheparticularityofrailwayscenesandmadesomeadaptiveimprovementstotheYOLO(YouOnlyLookOnce)v5deeplearningmodelstructure.Itwasusedasarailwayforeignobjectintrusiondetectionmodelandtrainedandtestedonself
6、-madedatasetsamples.Thetestresultsshowthatthedetectionaccuracyofthismodelreachesover88%,anditcanbeusedfordetectingforeignobjectintrusioninrailwaysites.Keywords:railwayforeignobjectintrusion;detectionmodel;YOLOv5model;imagerecognition;dataaugment;videodataset随着我国铁路的高速发展,截至 2022 年底,全国铁路运营里程已达 15.5 万 k
7、m,其中,高铁里程达到 4.2 万 km。2022 年,铁路货运总发送量达 49.84亿 t,铁路发送旅客量达到 16.73 亿人1,铁路运输在我国经济发展中发挥着越来越重要的作用,铁路运输安全的重要性也愈发凸显。然而,铁路沿线行人、家畜、野生动物等侵入铁路线路的事件时有发生,威胁铁路行车安全。目前,针对异物侵入界限(简称:侵限)检测的方法主要有电网检测法、光纤光栅检测法、视频检测法、雷达检测法、超声检测法和红外线屏障法等2。这些方法的检测原理不同,适用的场景也不尽相同,其中,以视频检测法较为通用,使用该方法时,完全不需要对铁路线网进行任何设施改造。根据铁路综合视频监控系统技术规范3,铁路沿线
8、均建设有监控摄像头,并由专人 24h 盯控,以便及时发现异物侵限等异常事件。由于这种方法监测的时空范围和防护能力有限,仍存在误报、依赖人工判识等问题4,基于此,本文研究 YOLOv5 深度学习模型5,针对铁路场景,对该模型进行适应性改进,并将其作为铁路异物侵限检测模型,检测铁路线路异物侵限情况,实现提高检测精确率的目的。收稿日期:2023-04-17基金项目:中国铁路成都局集团有限公司公司科技项目(202225 号)作者简介:徐鑫,高级工程师;潘杰,工程师。第32卷 第10期Vol.32 No.10研究与开发Research and Development文章编号:1005-8451(2023
9、)10-0007-06RCA2023.10 总第 319 期71 检测模型1.1 YOLOv5 模型网络结构YOLOv5 模型网络结构如图 1 所示,主要由主干(Backbone)网络、颈部(Neck)网络、头部(Head)网络组成。其中,Backbone 网络采用较为轻量级的跨阶段局部网络(CSPDarknet,CrossStagePartialDarknet)6,提取目标特征,减少模型参数数量,在保证高精度的同时大幅减少了计算量;Neck网络采用路径聚合网络(PANet,PathAggregationNetwork)7,通过上采样和下采样操作实现多尺度特征的融合,构建特征金字塔网(FPNe
10、t,FeaturePyramidNetwork);Head 网络对 FPNet 进行目标检测,输出检测结果。FocusCBLCSP1_1CBLCSP1_3CBLCSP1_3CBLSPP160 x16080 x8040 x4020 x20CSP2_1CBLUpsampleConcatCSP2_1CBLUpsampleConcatCSP2_1CBLConcatCSP2_1CBLConcatCSP2_1ConvConvConvBackbone:CSPDarknetNeck:PANetHead:YOLO layerInput:640 x640 x380 x80 x25540 x40 x25520 x2
11、0 x255图1YOLOv5 模型网络结构1.2 铁路异物侵限检测模型铁路异物侵限检测场景往往背景复杂多变、各类目标尺寸和形态差异较大、远小目标数量占比较大,并且真实目标样本数量过少。为了提高检测精度,本文主要在目标框损失函数和检测尺度方面对YOLOv5 模型进行了适应性改进,以此作为铁路异物侵限检测模型。1.2.1目标框损失函数改进YOLOv5 模型使用 CIoU 损失函数作为目标框回归的损失函数,CIoU 利用预测框和真实框之间的距离、重叠区域、宽高比等指标指导模型收敛。但是CIoU 及 GIoU 等损失函数均未考虑预测框和真实框之间的方向性,大量“游离在外”的预测框对于模型收敛不能提供任
12、何有效信息。因此,本文引入SIoU 作为目标框损失函数8,将预测框和真实框之间的位置关系加入到模型回归参数中,有效降低了预测框的自由度,使模型收敛速度更快,训练结果也更准确。1.2.2检测尺度改进YOLOv5 模型使用 FPNet+PANet 的方式提供 3个尺度的特征图输出,以(像素为)640640 的图像输入为例,YOLOv5 将输出 3 个像素分别为 2020、4040、8080 的特征图。YOLOv5 使用 2020 的特征图检测大目标,通过 2 次上采样和拼接操作,进行特征融合,分别得到 4040、8080 的特征图,用于检测中等尺度的目标和小目标。本文经过对相关数据集整理发现,在铁
13、路异物侵限检测场景中,发生侵限的目标(如行人、动物等)在监控摄像机画面中的像素面积占比通常都较小,特别是发生在距离摄像机较远处的侵限,即便是 YOLOv5 提供的最大尺度(8080)的特征图仍无法对远处的小型侵限目标进行精准检测。此外,现实场景中极少出现在画面中占比非常大的侵限目标,因此,YOLOv5 提供的最小尺度(2020)的特征图在本文场景中几乎没有实际作用。基于上述考虑,本文对 YOLOv5 的检测尺度进研究与开发2023年10月RCA82023.10 总第 319 期行了适应性修改,通过增加一个额外的上采样和特征融合模块,获得尺度更大的特征图(160160),能够检测到更远、更小的侵
14、限目标。此外,还裁剪掉了原模型中作用不大、最小尺度为 2020 的相关检测模块,减少了模型推理期间的计算量,提升模型推理速度。改进后的模型网络结构如图 2 所示,图中,红色背景为本文新增的、更大尺度的检测模块,灰色连接箭头及模块为本文移除的检测模块。改进后模型输出的 3 个尺度的特征图为 4040、8080、160160,分别用于检测大、中、小目标,能更好地适应铁路场景的异物侵限检测。FocusCBLCSP1_1CBLCSP1_3CBLCSP1_3CBLSPP160 x16080 x8040 x4020 x20CSP2_1CBLUpsampleConcatCSP2_1CBLUpsampleCo
15、ncatCSP2_1CBLConcatCSP2_1CBLConcatCSP2_1ConvConvConvBackbone:CSPDarknetNeck:PANetHead:YOLO layerCSP2_1CBLUpsampleConcatCSP2_1CBLConvConcat160 x160 x25580 x80 x25540 x40 x25520 x20 x255Input:640 x640 x3图2改进后的 YOLOv5 模型网络结构2 数据集构建当前并没有专门针对铁路场景的行人和动物的图像数据(简称:数据)集,既有的公开数据集,如 COCO 等9,缺乏铁路轨道及列车(特别是我国的各类高速
16、动车组列车)背景,若将此类公开数据集直接用于铁路场景异物检测模型的训练,模型不能有效学习到铁路轨道相关场景特征,容易产生大量的误检和漏检。例如,基于此类数据集训练出来的检测模型极易将铁路扣件、铁路道外立杆、动车组列车部件等多种铁路常见场景误识为行人类型,而在铁路轨道中行走的行人(特别是夜间或者雨天)和动物则会产生较多的漏检。因此,本文将通过多种途径采集铁路场景专用的异物侵限数据,并从公开数据集中挑选部分相关样本、辅以多种数据增强技术,构建一个更适合铁路场景的异物侵限数据集。2.1 数据采集本文从铁路综合视频监控平台中选取了 60 路运营中的铁路轨道旁的常规监控视频,包括有砟普速客、货运铁路,以
17、及无砟高速铁路,涵盖桥梁、隧道口、隧道内等多种场景。根据实际使用需要,从选取的监控视频中采集了白天、夜间、阴天、晴天、雨天、雪天、雾天等多种条件下的数据,经过人工筛查,构建了含有 6000 张样本的数据集,并对这些样本进行了标注。其中,5500 张样本中包含铁路轨道中行走的行人(主要是夜间上道作业的人员和部分经过居民聚居区的货运线路上行走的行人)及少量动物,剩余 500 张样本为不包含行人和动物的铁路轨道背景及各式列车背景,作为负样本使用。真实线路中,能采集到的动物数据非常有限,远不足以满足模型训练要求。经过对铁路沿线异物侵限情况的调研、与铁路巡线人员及铁路综合视频盯控人员的沟通,最终选定了牛
18、、羊、狗、猫、兔、鸡、松鼠、猴、狐狸、鹿等多种线路上较为常见的动物作为训练类别。针对其中的羊、鸡、猪等易发生侵限的动物,在铁路试验场地内按真实线路规格架设摄像机,以可控方式引入这些动物进行样本采第32卷 第10期徐鑫等:基于深度学习的铁路异物侵限检测模型研究与开发RCA2023.10 总第 319 期9集,共采集并标注了约 500 张包含行人和动物的样本。其他动物的数据由于获得性和可控性较差,不便进行现场采集,故通过公开数据集获取到这些动物的数据,通过技术手段叠加到此前采集的真实线路背景样本中,又生成了 3500 张包含各类动物的铁路场景样本。至此,本文共得到了 10000 张包含铁路场景下的
19、行人、常见动物、列车的样本。完成标注后,共有 28000 个各类目标。图 3 为本文采集和生成的部分样本图片示例。图 3(a)为本文在铁路试验场地内采集的动物(羊、鸡)样本,图 3(b)为真实铁路上采集的动物(猫、猴)侵限样本,图 3(c)为使用本文方法将动物(狗、牛)素材叠加至铁路线路生成的样本。(a)试验场采集样本 (b)真实铁路采集样本 (c)生成样本图3采集和生成的部分样本图片示例2.2 数据增强由于样本采集的设备数量和场景有限、各个场景相似度也略高,直接将上述数据用于模型训练,很容易产生过拟合,泛化能力较差。如果将来应用于训练集中未曾出现过的场景、或者采用像素值相差较大的摄像机进行拍
20、摄,模型准确性可能会有所下降。因此,在模型训练前需要对数据集进行增强,提高数据集的丰富程度。为提高模型泛化能力、减少过拟合现象的发生,本文使用改变图像的亮度、对比度、饱和度、色调,进行随机旋转、裁剪、翻转10,增加额外噪声等技术对数据进行增强处理。通过此类数据增强技术可弥补数据采集设备型号、现场光照环境等的不足,从而更好地将模型应用于训练集之外的设备和场景。此外,本文还使用 Mosaic、Cutout、Mixup 等数据增强技术,将多张样本进行随机缩放、裁剪、拼接,将多个目标集成于单张图像中,有效提升学习效率,同时,可随机将图像中的部分区域剪切,模拟目标被部分遮挡的情况,提高模型鲁棒性。图 4
21、为使用数据增强技术产生的部分用于训练的样本图片示例。图4数据增强技术产生的部分样本图片示例3 测试及结果分析3.1 模型训练环境本文进行模型训练使用的软、硬件配置如表 1所示。表1模型训练软、硬件配置配置项参数/版本CPUIntel(R)Xeon(R)W-21333.60GHzGPUNVIDIAGeForceRTX2080Ti(2块)内存32GBDDR4操作系统Ubuntu18.04LTSCUDA11.2Python3.8Pytorch1.7基于 YOLOv5 网络,初始学习率(learningrate)为 0.001,使用 Adam 优化器,IOU 阈值 0.7,批大小(batchsize)
22、为 64,启用了旋转、色调、饱和度、翻转、Mosaic、Cutout、Mixup 等数据增强技术。模型训练共使用 10000 张样本,按照 8:1:1 的比例划研究与开发2023年10月RCA102023.10 总第 319 期分为训练集、验证集、测试集。3.2 模型指标评估深度学习目标检测任务中,一般使用精确率(precision)、召回率(recall)、平均精度均值(mAP)等指标评估模型性能。其中,精确率表示在所有检出目标中真实目标的占比,精确率越高,代表错检率越低;召回率表示所有真实目标被检出的比例,召回率越高,代表漏检率越低。计算公式为P=TPTP+FP(1)R=TPTP+FN(2
23、)式中,P 为精确率,R 为召回率,TP 表示检测出的真实目标数量,FP 表示检测出的错误目标数量,FN 表示未被检出的目标数量。精确率和召回率从两个不同的角度衡量模型性能,单独看任何一个指标都不足以评价模型的好坏,故引入了 AP(AveragePrecision)概念,用于表述不同召回率下的平均精确率。而目标检测任务包含多个类别,对所有类别的 AP 取平均即得到评估指标mAP。图 5 为模型训练过程中,训练集和验证集的损失函数曲线,包括目标框损失函数(box_loss)、目标置信度损失函数(obj_loss)、目标类别损失函数(cls_loss)。本文共训练了约 250 轮迭代(epoch)
24、,从损失函数曲线可以看到,模型训练约 200 轮后,验证集的各个损失值均已趋于平稳,不再有明显下降趋势。最终,采用训练 250 轮得到的模型文件进行后续试验。图 6 为本文最终选择的模型在验证集上的精确率召回率曲线(PR 曲线,IoU 阈值为 0.5)。图中,灰色线条为各类别的 PR 曲线,蓝色线条为所有类别平均的 PR 曲线。根据 PR 曲线,模型所有类别最终平均精度(mAP)为 0.863。3.3 测试结果分析使用本文训练得到的模型对测试样本中的铁路场景和非铁路场景的行人、动物数据进行检测。按行人、动物两大类别统计,本文训练模型在 1000 张测试样本(含各类目标共 2713 个)中的检测
25、性能指标如表 2 所示。从表 2 的指标可以看到,模型在测试集上整体精确率为 0.897 左右、召回率为 0.854 左右,其中,行人的精确率和召回率均略高于动物的。部分检测结果如图 7 所示。表2测试集检测结果类别真实目标数正检数TP误检数FP漏检数FN精确率P召回率R行人11311017921140.9170420.899204动物158213011732810.8826320.822377所有类别271323182653950.8974060.854405测试结果表明,模型能以较高的置信度检测出(a)训练集目标框、置信度、类别损失函数曲线(b)验证集目标框、置信度、类别损失函数曲线图5模
26、型训练损失函数曲线图6模型精确率召回率曲线第32卷 第10期徐鑫等:基于深度学习的铁路异物侵限检测模型研究与开发RCA2023.10 总第 319 期11样本中的行人和动物,特别是对于真实线路夜间场景和图像质量较低的样本,本文模型也能取得较为理想的检测效果,模型具有良好的鲁棒性和充分的泛化能力。4 结束语针对异常侵入铁路股道、影响铁路运营安全的行人和常见动物,本文提出了基于深度学习的铁路异物侵入界限检测模型。该模型已在某客运专用线试用,多次检测出入侵动物,提高了铁路线路安全防护水平,同时,漏检率和误检率也较低,取得了较好的试用效果,满足铁路异物侵限检测要求。参考文献发展和改革部.中国国家铁路集
27、团有限公司 2022 年统计公报 N.人民铁道,2023-03-17(002).1王泉东,杨岳,罗意平,等.铁路侵限异物检测方法综2述 J.铁道科学与工程学报,2019,16(12):3152-3159.中国国家铁路集团有限公司.铁路综合视频监控系统技术规范:Q/CR575-2022S.北京:中国铁道出版社有限公司,2022.3杨栋,黄文政,张秋亮,等.基于 Faster-RCNN 的站台端部人员入侵检测研究 J.铁路计算机应用,2020,29(2):6-11.4RedmonJ,FarhadiA.YOLOv3:anincrementalimprovementZ.arXiv:1804.02767
28、,2018.5WangCY,LiaoHYM,WuYH,etal.CSPNet:anewbackbonethatcanenhancelearningcapabilityofCNNC/Proceedingsof 2020 IEEE/CVF Conference on Computer Vision andPattern Recognition Workshops,14-19 June,2020,Seattle,USA.NewYork,USA:IEEE,2020.1571-1580.6Liu S,Qi L,Qin HF,et al.Path aggregation network forinstan
29、ce segmentationC/Proceedings of 2018 IEEE/CVFConferenceonComputerVisionandPatternRecognition,18-23June,2018,SaltLakeCity,USA.NewYork,USA:IEEE,2018.8759-8768.7GevorgyanZ.SIoUloss:morepowerfullearningforboundingboxregressionZ.arXiv:2205.12740,2022.8LinTY,MaireM,BelongieS,etal.Microsoftcoco:commonobjects in contextC/Proceedings of the 13th EuropeanConference on Computer Vision,6-12 September,2014,Zurich,Switzerland.Cham,Germany:Springer,2014.740-755.9尹甜甜,王新,邓亚萍,等.基于数据增强的小样本图像分类方法 J.云南民族大学学报(自然科学版),2023,32(1):83-89,123.10责任编辑王浩图7模型检测效果研究与开发2023年10月RCA122023.10 总第 319 期