基于深度学习的车载影像交通标志检测方法研究.pdf

资源描述

1、经纬天地Survey World2023年第4期No.420230引言车道级高精度地图是支撑智慧交通与无人驾驶技术实现的核心技术之一，交通标志作为道路的核心元素，准确获取交通标志是自动驾驶行为判断过程中的必要步骤。但受限于道路环境复杂、拍摄距离等原因，道路交通标志影像在采集中多数以小尺寸目标为主，且正样本个数较少。因此，如何利用海量道路采集影像来实现对交通标志高精度的定位和分类，是当前的一项研究热点。随着近年来深度学习技术的不断进步，由卷积神经网络为基础构建的目标检测模型已经在各种物体检测领域取得很好的成果。其中，吴军等针对输电线路巡检问题，提出一种以 ResNet101 网络和多层级联分类器

2、对 Cascade R-CNN 改进的输电线路小目标缺陷检测方法1，并在无人机航拍数据集上与 YOLOV3 算法对比，验证了所提出算法的有效性和优越性；何颖等基于加权双向特征融合技术对 YOLOV5 算法进行修改，提出一种经济林木虫害目标检测算法2，该算法在测试集上的平均精度达到了 0.923，且推断速度为 64.9ms-1；林思玉等通过在聚焦层网络引车普民（垣曲县测绘地理信息中心，山西垣曲 043700）基于深度学习的车载影像交通标志检测方法研究摘要：对车载影像交通标志检测问题进行研究，提出一种基于深度学习的交通标志检测模型。首先在模型骨干网络内设置特征聚焦层以实现输入影像的无损下采样，进

3、而以瓶颈结构搭建特征提取层；然后在特征金字塔中通过多尺度特征融合结构获取并输出3个不同尺寸特征图；最后，通过自适应锚点框机制输出检测结果。实验结果表明：所提出模型在各类别检测精度方面表现一致，在综合检测精度上显著优于对照组模型，能够实时输出检测结果，在高精度地图生产以及无人驾驶领域具有重要应用价值。关键词：交通标志检测；深度学习算法；瓶颈结构；多尺度特征融合；自适应锚点框中图分类号：P209文献标识码：A文章编号：2095-7319（2023）04-0060-05Researchonvehicleimagetrafficsigndetectionmethodbasedondeeplearnin

4、gCHE Pumin(Yuanqu County Surveying and Mapping Geographic Information Center,Yuanqu County 043700,China)Abstract:The problem of vehicle image traffic sign detection is studied and a traffic sign detection model based on deep learning isproposed in this paper.First,set the feature focusing layer in t

5、he model backbone network to achieve lossless down-sampling of theinput image and then build the feature extraction layer with the bottleneck structure;then obtain and output three feature maps ofdifferent sizes through the multi-scale feature fusion structure in the feature pyramid;finally the dete

6、ction results are output throughthe adaptive anchor box mechanism.The experimental results show that the proposed model has the same performance in the detectionaccuracy of each category,and is significantly better than the control group model in the comprehensive detection accuracy.It canoutput the

7、 detection results in real time,and has important application value in the field of high-precision map production andunmanned driving.Key words:traffic sign detection;deep learning algorithm;bottleneck structure;multi-scale feature fusion;adaptive anchor box收稿日期:20230508作者简介:车普民（1972），男，山西垣曲人，专科，工程师

8、，主要从事地形测量、工程测量方面工作。E-mail：608月入多尺度检测和可变形卷积方式，实现了一种小建筑物目标检测方法3，该方法在测试环境下与原始方法相比，对小建筑物目标提升了 3.6%，减少了小建筑物目标漏检、误检的问题。受拍摄距离以及道路交通标志的实际大小限制，影像中的交通标志大多为个数较少且较为分散的小目标；此外，自动驾驶等任务在要求高精度检测的同时对于检测的实时性也有着较为严格的要求。针对以上问题，研究了一种交通标志检测模型，模型包括骨干网络、特征金字塔、检测输出端 3部分，骨干网络首先通过特征聚焦层对输入影像进行无损下采样，然后通过瓶颈结构并联卷积核组实现特征提取，特征金字塔通过多

9、尺度特征图拼接输出 3 个尺寸的特征图，最终在检测端使用自适应锚点框机制来实现目标框的检出。1交通标志检测模型1.1骨干网络骨干网络通过多层次堆叠的特征提取层和下采样层对输入的图像进行多次特征提取与下采样，通过多张由不同大小的特征图实现多尺度目标检测。然而网络层数的不断加深会导致模型计算量大幅上涨，进而使得模型难以得到充分训练。为了在降低骨干网络计算量的同时不对后续特征增强与提取造成影响，在骨干网格的首层使用了特征聚焦层（Focus）对图像进行一次无损尺寸降采样。Focus 层通过一个 22 大小的卷积核对输入尺寸为640 640 3的特征图进行横向与纵向采样间隔均为 1 的提取切片，提取后的

10、特征图尺寸变为320 320 12，聚焦层的具体结构如图 1（a）所示。经过提取后的特征图被尺寸压缩并延展到了 12 个图像通道上，由此实现了无损下采样。一张影像经过多层次的特征提取会丢失很多的目标特征细节，而检测对象是以小尺寸目标为主的交通标志，这种特征细节的丢失对于小尺寸目标来说是灾难性的，会直接导致模型无法获取到足够的目标特征进行学习。因此，为了特征提取过程中尽可能地保留更多原始的小尺寸目标特征信息，通过瓶颈结构4的卷积核组来构建特征提取层，具体结构如图 1（b）所示。瓶颈结构首先以一个 11 大小的卷积核对来自上层的特征图进行通道维度的压缩，然后，使用尺寸 33 的卷积核进行特征提取，

11、并通过批量归一化与激活函数对提取后的特征进行归一化与非线性化处理，来降低数据的偏移5，最后，再次使用11 大小的卷积核将提取后的特征图恢复到输入图的通道数。相比使用单独的 33 卷积核独自完成特征提取与通道的压缩，这样的方式可以节约很多计算开销。此外，在常规提取路径的基础上使用了残差结构，提高提取层输出特征图信息复杂度的同时避免梯度消失问题6。在非线性激活函数方面，以参数化 PReLU 激活函数（Parametric RectifiedLinear Unit，PReLU）作为特征的非线性激活函数，具体如式（1）所示：PReLU()x=x，x 0ax，x 0（1）式中：x 为输入的特征值；a 为

12、可学习更新的参数。为了保留更多的特征信息，以 33 的卷积核作为下采样层，通过 2 倍的采样间隔的方式实现对特征图尺寸的压缩。最终，骨干网格输出 5 个不同尺寸的特征图。1.2特征金字塔来自骨干网络的多尺度特征图中，小尺寸特征拥有较多较大尺寸目标的轮廓信息，大尺寸特征图拥有更多目标细粒度的纹理特征。而特征金字塔通过多尺度的特征图跨层融合，将骨干网络中不同尺寸的特征图进行融合，来获取语言特征更为丰富的特征图进行检测输出。结合对小尺寸交通标志检测的任务特点，构建了跨尺度多层融合特征金字塔，具体结构如图 2 所示。(a)特征聚焦层结构(b)瓶颈结构提取层图 1骨干网络结构图车普民：基于深度学习的车载

13、影像交通标志检测方法研究61经纬天地Survey World2023年第4期No.42023从图 2 中可以看出：所构建的特征金字塔向检测端输出 3 张不同尺寸图像，而每张图像分别来源于骨干网络中的 24 层，上两层特征图的 0.5 倍、0.25 倍尺寸下采样以及底层小尺寸特征图的 2 次尺寸上采样，然后，通过通道叠加的方式拼接而来。1.3检测输出端为了实现对多个尺寸目标的检测，基于回归的目标检测模型需要使用自适应锚点框机制，通过多个尺寸的锚点框在不同特征图上来实现对相应大小目标的回归检测。而在训练阶段，所使用的初始锚点框与真实目标的尺寸分布越接近，模型的训练情况就越好。因此，通过基于 K-m

14、eans+非监督聚类的自适应锚点框算法来获取所需要的锚点框。首先，综合考虑特征金字塔输出层数以及检测计算量的开销，确定最终所获得的锚点框为 12 个，以K-means+以训练集中的真实目标框为数据进行非监督聚类，接着使用遗传算法对所获取的最终聚类中心进行随机变异 500 次后作为最终的锚点框，最后将获取到的 12 锚点框按照 3 个尺度特征图的尺寸大小进行分配。由于检测对象存在较为严重的正负样本不平衡现象，故而在训练过程中使用焦点损失函数对模型进行迭代训练，损失函数具体分为目标框定位损失与目标分类损失两部分，具体如式（2）、式（3）所示：L()p，l，c，g=1N Lclass()p，c+Ll

15、oc(l，g)（2）Lclass()x，c=()1 pcklog()pckLloc()l，g=m cx，cy，w，smootL1(lmk gmj)式中：N 为正样本个数；p为预测框分类正确概率；l为预测框与真实框的偏移；c、g分别为目标框的类别和正样本目标的位置参数；为两个子函数的权重值，实验取经验参数设置为 1；pck为目标框类别概率；为超参数；smootL1如式（4）所示：smootL1(t)=0.5t2 1 t 1|t 0.5t 1，t 1（4）式中：t=lmk gmj为预测值与真实值间的差异。2实验与结果分析2.1训练集增强道路采集影像中的交通标志往往尺寸较小且在单幅影像内分布稀疏。为

16、了让模型充分学习目标特征的同时，具备较好的泛化能力，首先以采集于不同时间和地点的中国交通标志检测数据集（CCTSDB）与清华腾讯交通标志数据集（TT100k）作为数据源，从中筛选出道路中最常见的 4 种标志“限速 50”“限速 60”“限速 70”“禁止停车”作为样本，按照 41 的比例划分为训练集和测试集，然后对训练数据集进行了样本多样性增强。模型需要尺寸统一的训练数据才能进行训练，故首先通过裁剪的方式将所有训练集中的图像尺寸转化为608608，然后随机选取部分训练数据采取了旋转、扭曲、增加高斯噪声等方法进行增强处理，通过马赛克增强，即通过随机选取的方式获取 4 张训练样本后按照随机尺寸变换

17、将 4 张影像拼接为 1 张尺寸与原图相同的样本，通过多张样本融合的方式来提高单幅影像中正样本目标的数量，具体结果如图3 所示。将所有强化后的样本放入训练集参与训练，按照 VOC 格式对所有样本行标注，最终参与训练的“限速 50”样本 1287 个（标注为 Xiansu50），“限速图 2模型结构图（3）图 3马赛克增强样本示意图628月60”样本 1452 个（标注为 Xiansu60），“限速 70”样本1351 个（标注为 Xiansu70），“禁止停车”样本 1135个（标注为 Nostop）。2.2实验环境及评价机制为了全面客观地评价模型性能，以单类别精度均值（Average Pre

18、cision，AP）、平均精度均值（MeanAverage Precision，MAP）、每秒检测帧数（Frame PreSecond，FPS）3 项指标对模型的单类别与全类别检测精度以及检测速度进行评价，具体计算如式（5）所示：precision=TPTP+FPrecall=TPTP+FNAP=01p()r drMAP=i=1nAPn（5）式中：TP 为正确检出的正样本；FP 为错误检出的负样本；FN 为未检出的负样本；p为检测精确度（precision）；r 为检测的召回率（recall）；n 为类别个数，取经验参数 n=3。同时，为了进一步体现所提出模型对应交通标志检测任务的优越性，使用

19、目前主流的回归检测模型 YOLOv5、RetinaNet 以及 FasterR-CNN 模型进行对比测试。2.3模型训练模型的训练和测试工作均在安装大型显卡的图形工作站上完成，其中 CPU 型号为 Intel-i9-12900K，GPU 型号为 Nvidia RTX 3090，内存大小为32 G，硬盘为 1 TB SSD，工作站的操作系统为 Ubuntu16.04，机器学习的开发框架为 Tensor Flow 2.5.0。模型在训练过程中采用 Adam 优化器进行参数优化，其中，衰减系数为 0.9，训练的总迭代次数为 300次，每次训练过程中送入模型训练的样本个数为 12个，训练过程中使用动态

20、学习率来避免局部极小值，初始学习率为 0.000 1，每训练 100 次缩小 0.1倍，在训练过程中模型的损失变换情况如图 4 所示。由图 4 可以看出：在训练过程中，训练损失值经过初期的小幅震荡后始终保持收敛下降，最终稳定在 0.06 左右，说明在设定的参数环境下模型实现了较好的训练收敛。2.4实验结果分析使用训练数据集所提出模型与对比模型进行测试，并通过选定的指标对所有模型进行评价。所提出模型以及参考模型对于 4 个类别目标的实际检测效果如表 1 所示。检测方法所构建模型YOLOv5RetinaNetFaster R-CNN输入图尺寸608608608608APXiansu500.930.

21、830.770.81Xiansu600.920.820.720.83Xiansu700.910.850.760.84Nostop0.940.880.710.86MAP0.930.840.750.83FPS(m.s-1)29421614图 4模型训练损失表 1检测指标评价由表 1 可知：所提出交通标志检测模型对于 4个类别的目标均能够实现较为精准的检测，对于禁止停车类别的检测精度达到最高水平，而在其余类别的检测精度中表现相当，由此可以说明所构建的训练数据集中样本分布合理，模型对几个类别的目标特征都进行了充分学习。所构建模型对全部类别目标的平均精度均值达到 0.93 MAP，相比其余 3种参考模型

22、分别提高了 9.46%、25%以及 10.78%，在输入影像尺寸一致的情况下，所构建模型在测试数据集上精度表现最佳，可以充分说明所提出结构车普民：基于深度学习的车载影像交通标志检测方法研究63经纬天地Survey World2023年第4期No.42023在检测精度方面的优越性。在检测速度方面，对于全部测试数据集中的样本，所提出模型能够达到29 ms-1的检测水平，在检测速度方面明显优于基于候选区域的 Faster R-CNN 模型以及经典的RetinaNet，但低于 YOLOv5，而从模型的结构中可以看出：特征金字塔结构通过多层特征图进行跨尺度融合，同时使用了 12 个

23、锚点框来进行多尺度检测，这就使得模型在追求检测精度的同时不可避免地牺牲了检测速度，而相比之下 YOLOv5 仅使用 9 组锚点框进行检测，其检测速度更快但是在精度方面略低。所提出模型检测结果如图 5 所示。可以看出：所提出模型对于不同逆光、远距离、多类别样本密集等多种复杂的情况均能够实现较好地检出，不仅体现了模型在性能方面的优越性，也说明了所使用的训练集能够对模型进行充分训练。3结语针对道路环境下交通标志快速精准检测问题，提出一种基于回归的深度学习检测模型，并以道路交通影像数据集 CCTSDB 与 TT100K 为基础，利用多种图像变换算法与马赛克拼接构建了样本类型更丰富、正样本数量更多的训练

24、数据集来进一步充分训练模型。为全面评价模型性能，使用单类别精度均值、平均精度均值、每秒检测帧数等几项指标对所提出模型与 3 组对照模型进行综合评价。根据实际检测结果和统计评价结果，得出以下结论：在检测精度方面，模型单类别精度最高可达到0.91，并且所有类别检测精度相当，4 种类别目标的综合检测为 0.93 MAP，相比 3 组对比模型分别高了9.46%、25%以及 10.78%，说明所提出的检测模型具有较高的检测精度；在检测速度方面，所提出模型采用 3 个检测尺度的特征金字塔，通过 12 个锚点框来完成多尺度、多类别的目标检测，在一定程度上增加了模型的运算量，因此造成检测速度略低于 YOLOv

25、5 模型，但是仍可达到 29 ms-1的检测速度，具备实时检测的性能水准。根据以上结论可以总结出：所提出的检测模型能够对道路影像范围的多尺度、不同角度的交通标志目标实施精准快速地检测，能够在高精度地图的快速采集绘制、无人驾驶决策等领域发挥重要作用。在未来的研究中，将对模型结构不断改进，同时采用更多的策略优化训练数据集。参考文献：1吴军,白梁军,董晓虎,潘尚智,金哲,范亮,程绳.基于Cascade R-CNN 算法的输电线路小目标缺陷检测方法J.电网与清洁能源,2022,38(4):19-27,36.2何颖,陈丁号,彭琳.基于改进YOLOv5模型的经济林木虫害目标检测算法研究J.中国农机化学报,

26、2022,43(4):106-115.3林思玉,王敬东,顾东泽,姜宜君.一种基于FCOS神经网络的小建筑物目标检测方法J.半导体光电,2022,43(2):369-376.4陆飞,沈世斌,苏晓云,谢非,章悦,刘益剑.基于改进MaskR-CNN的交通监控视频车辆检测算法J.南京师范大学学报(工程技术版),2020,20(4):44-50.5田港,张鹏,邹金霖,赵晓林.基于改进YOLOv4的无人机目标检测方法J.空军工程大学学报(自然科学版),2021,22(4):9-14.6苏丰龙,孙承哲,景宁.融合上下文的残差门卷积实体抽取J.北京大学学报(自然科学版),2022,58(1):69-76.图 5检测结果图64

展开阅读全文