基于深度学习的道路小目标检测综述.pdf

资源描述

1、第 49卷第 10期2023年 10月Computer Engineering 计算机工程基于深度学习的道路小目标检测综述曹健1，2，陈怡梅1，2，李海生1，2，蔡强1，2（1.北京工商大学计算机学院，北京 100048；2.食品安全大数据技术北京市重点实验室，北京 100048）摘要：复杂道路场景下的小目标检测能够提高车辆对于周边环境的感知能力，是计算机视觉和智慧交通领域的重要研究方向。随着深度学习技术的发展，将深度学习方法与道路小目标检测相结合能够有效提高检测精度，使车辆快速对周边环境做出反应。从经典及最新的道路小目标检测的研究成果出发，给出小目标的两种定义方式，分析造成道路小目标检测

2、困难的原因，阐述数据增强、多尺度策略、生成超分辨率细节信息、加强上下文信息联系、改进损失函数等 5类基于深度学习的提高道路小目标检测精度的优化方法，总结归纳各类方法的核心思想及目前国内外最新的研究进展。介绍常用于道路小目标检测的大型和公共数据集，提供相应的用于评估小目标检测性能的指标，对比分析各类方法在不同数据集上的性能检测结果，指出道路小目标检测研究目前仍存在的问题，并结合这些问题从多个角度对其未来研究方向进行展望。关键词：小目标检测；深度学习；数据增强；特征融合；检测精度开放科学（资源服务）标志码（OSID）：中文引用格式：曹健，陈怡梅，李海生，等.基于深度学习的道路小目标检测综述 J.计

3、算机工程，2023，49（10）：1-12.英文引用格式：CAO J，CHEN Y M，LI H S，et al.Survey of small target detection on roads based on deep learning J.Computer Engineering，2023，49（10）：1-12.Survey of Small Target Detection on Roads Based on Deep LearningCAO Jian1，2，CHEN Yimei1，2，LI Haisheng1，2，CAI Qiang1，2（1.School of Computer

4、 Science and Engineering，Beijing Technology and Business University，Beijing 100048，China；2.Beijing Key Laboratory of Big Data Technology for Food Safety，Beijing 100048，China）【Abstract】Small target detection in complex road scenes can improve the vehicles perception of the surrounding environment.Thu

5、s，it is an important research direction in the field of computer vision and intelligent transportation.With the development of deep learning technology，a combination of deep learning and small target detection on roads can effectively improve detection accuracy，allowing the vehicle to quickly respon

6、d to the surrounding environment.Starting with the latest classic research results in small target detection，this research provides two definitions for small targets and analyzes the reasons for the difficulty encountered in small target detection on roads.Subsequently，five types of optimization met

7、hods based on deep learning are expounded upon to improve detection accuracy of small targets on roads.The optimization methods include enhanced data，multi-scale strategy，generated Super-Resolution（SR）detail information，strengthened contextual information connection and improved loss function.The co

8、re ideas of various methods and the latest research progress at home and abroad are summarized.Large and public datasets commonly used in road small target detection are introduced along with corresponding indicators to evaluate the performance of small target detection.In comparing and analyzing th

9、e performance detection results of various methods on different datasets，this research presents the current research on road small target and associated problems，looking forward to future research directions from multiple perspectives.【Key words】small target detection；deep learning；data enhancement；

10、feature fusion；detection accuracyDOI：10.19678/j.issn.1000-3428.0065984基金项目：国家自然科学基金（61877002，62277001）；北京市自然科学基金-丰台轨道交通前沿研究联合基金项目（L191009）；北京市教委-市自然科学基金委联合资助项目（KZ202110011017）。作者简介：曹健（1982），男，副教授、博士，主研方向为机器学习、图像处理；陈怡梅（通信作者），硕士研究生；李海生、蔡强，教授、博士。收稿日期：2022-10-12 修回日期：2022-11-17 Email：热点与综述文章编号：1000-34

11、28（2023）10-0001-12 文献标志码：A 中图分类号：TP3912023年 10月 15日Computer Engineering 计算机工程0概述道路目标检测是智能交通监控1、自动驾驶2、车牌识别3、行人跟踪4、车辆检测5等领域的重要研究分支之一，旨在识别和检测整个道路场景图像中感兴趣的目标，尤其是在复杂场景中的准确性和实时性是评测整个模型系统的重要指标，具有广泛的应用价值。但是自然交通场景的复杂多变以及道路各类目标本身在尺寸与距离上的干扰，使得目标识别和检测难度大大增加，其中小目标检测就是研究者关注的一个难点问题。对于大中型的车辆、行人等目标，通用的 Two-stage和 O

12、ne-stage目标检测模型已经能够达到不错的检测效果，然而小目标的尺寸较小，不具备相应的形状和纹理特征，这些特性导致其检测性能仍有所欠缺，不能满足实际需求。道路小目标的具体定义方式可参考小目标的定义方式，大致可分为两种：一种是绝对尺寸的定义方式，在通用的目标检测数据集 MS COCO6中，尺寸小于 3232像素的目标被定义为小目标；另一种是相对尺寸的定义方式，根据国际光电仪器工程师协会（SPIE）的定义，小目标是指在大小为 256256像素的图像中目标区域小于 99像素。目前，道路小目标检测困难和效果相对较差的原因大致可以归结为以下 4 种：1）相较于中大型行人车辆目标，包含小目标实例的图像

13、较少，且道路场景复杂多变，小目标容易隐藏在背景中；2）小目标在道路图像中面积占比小、分辨率低，携带的信息少，位置缺乏多样性，难以定位，因此，卷积神经网络提取到的可利用的有效信息非常有限；3）特征提取时，输入图像经过卷积神经网络的多次下采样后，小目标的细节信息丢失严重，影响小目标的检测效果；4）道路目标检测领域缺乏大规模通用的小目标检测数据集，目前该领域发布的公共数据集多为针对中大型的行人车辆进行检测，难以满足小目标的检测需求。针对上述问题，国内外许多研究者提出了相应的改进和优化方法来提高小目标的检测精度。本文将主要从数据增强、多尺度策略、生成超分辨率（Super

14、-Resolution，SR）细节信息、加强上下文信息联系、改进损失函数等5类改进方向出发进行归纳梳理，对各类方法的特点和优缺点进行比较，在 MS COCO公共数据集以及其他不同道路场景数据集上对各类方法的检测性能进行评估和对比分析，并对道路小目标检测的未来研究方向进行展望。1针对小目标检测的优化方法 1.1数据增强数据增强是一种扩展数据的技术，在缺乏数据或数据量有限的情况下，该技术可以利用有限的数据来创造尽可能多的价值并尽可能满足研究者的需求。尽管现在有很多用于各种任务的公开数据集，但数据量在使用中远远不够，而收集和制作这些数据的成本其实是非常高的且不便于采集，因此数据增强便成为了一种快速有

15、效的改进方法。在大部分目标检测的数据集中，小目标的实例数量占比少，在训练和检测中容易被忽略。通过数据增强来增加小目标的样本数量，可有效改进小目标的检测精准度。常用的数据增强方法可大致分为单样本数据增强和多样本数据增强两类。典型的单样本数据增强方法主要是在一张预检测的图像上进行翻转、裁剪、缩放、添加噪声、变换颜色等操作，改变图像原有的状态，可有效增加数据集的样本数量和提高网络的泛化能力。文献 7 使用过采样和基于复制粘贴的增强方法进行改进，并在将对象粘贴到新位置前，对其应用两种缩放图像和旋转图像的随机变换，然后将小目标粘贴到新的位置，并确保新粘贴的目标不与任何现有目标相重叠，且距离图像边界至少

16、5 个像素。文献 8 对输入的每一张图像先采用缩放操作，在缩放操作后进行增强对比度、翻转、改变亮度和以 0.5 的概率随机角度旋转等操作。文献 9 在小目标数据集上，将每张图片上的小目标物体在训练时复制 3 次，使得网络在训练过程中可以更容易地提取目标的特征信息。文献 10 通过几何变换和颜色变换等进行数据增强，增加了数据集的数据量。文献 11 提出自动数据增强策略，与手工制定的策略不同，该策略利用自动算法在多种增强候选者中进行搜索，且该策略也可以应用于其他数据集和框级任务。文献 12 利用自动机器学习（Auto Machine Learning，Auto ML）原理设计自动搜索数据增强技术用

17、于行人检测，从而产生最佳的数据增强策略。近些年，许多研究者也提出了多种通用的多样本数据增强方法，包括MixUp13、CutOut14、CutMix15、Mosaic16等方法，这些方法通过将多张图像以某种方式合成到一起形成新的样本，达到扩充数据集容量的目的。MixUp方法将两张图像以一定的概率和比例拼凑到一起，比例分配决定了分类结果。CutOut 是在图像中随机选择某一部分区域进行裁剪。CutMix 是将两种方法相结合，先裁剪掉一张图像的某一部分，再使用另一张图像中的某一部分进行填充形成新的样本。Mosaic数据增强方法是目前最常用的数据增强方法之一，该方法借鉴

18、了 CutMix增强方法，将采用的 2 张图像扩充为 4 张图像，先对4 张图像进行随机裁剪、缩放、翻转等操作，然后将4 张图像拼接形成一张新的图像。这个操作在扩充了数据集的同时也增加了小样本的数量，并且极大地丰富了检测对象的背景。在 YOLOv416和YOLOv517模型结构中，均使用了 Mosaic 数据增强方法，以此提高了模型学习能力和效率。文献 18也将 Mosaic 数据增强方法引入改进后的CenterNet19中，以此优化算法的训练模式，丰富检测背景，优化检测性能。图 1和图 2为多样本数据增强方法的示例图。2第 49卷第 10期曹健，

19、陈怡梅，李海生，等：基于深度学习的道路小目标检测综述1.2多尺度策略在使用卷积神经网络进行特征提取时，不同的网络深度对应不同层次的特征。低层特征的分辨率更高，像素更丰富，包含更多的细节信息和位置信息，对于目标的定位有极大帮助，但包含的语义信息较少；高层特征包含更丰富的语义信息，极大地促进了对象的分类，但分辨率较低，像素较少，对细节位置信息的感知能力较差。对于小目标行人、车辆以及指示牌而言，它们的尺寸小，分辨率低，在多次下采样后，特征图不断缩小，致使小目标的细节信息严重丢失，而多数通用检测器仅采用最后一层的特征图来定位目标和预测置信度分数，其中包含丰富的分类信息但缺乏详细信息，使得小目标物体容易

20、出现误检和漏检的情况。多尺度策略的提出有效缓解了这一问题，在计算量不大的情况下，增强了物体特征的表达能力，提高小目标检测的性能。目前，典型的多尺度策略有图像金字塔、SSD 算法和特征金字塔网络（Feature Pyramid Network，FPN）。图像金字塔是图像多尺度表达的一种，通过对原始图像进行下采样，得到一系列以金字塔形状排列的分辨率逐渐降低的子图集合，构成图像金字塔。图像金字塔结构如图 3所示。文献 20 将背景差分目标检测模型与高斯图像金字塔相结合用于多目标的检测，减少了误检测。文献 21 指出当前在极端尺度变化下目标检测训练存在的缺点，在此基础上提出一种新的训练方案，即图像金字

21、塔尺度标准化（Scale Normalization for Image Pyramid，SNIP），在训练和反向传播更新参数时，只考虑在指定的尺度范围内的目标，即只对大小合适的某些目标进行训练，以此提高小目标的检测效率。然而，图像金字塔方法的一个明显限制是它在处理一张图像时需要较大的计算量，模型必须对来自所有尺度的图像执行独立的计算。SSD 算法使用步长为 2 的卷积来降低特征图的大小，以不同尺度的特征图作为检测层来分别预测不同尺度目标的类别和位置坐标，较大的特征图用来检测小目标，较小的特征图用来检测大目标，实现多尺度目标的检测。SSD 算法的多尺度检测如图 4所示。文献 22 提出 DSS

22、D 网络，使用 ResNet-101 更换 SSD 的骨干网络 VGG16，提高了模型的特征提取图 4SSD算法的多尺度检测Fig.4Multi-scale detection of SSD algorithm图 3图像金字塔结构Fig.3Structure of image pyramid图 1MixUp、CutOut、CutMix数据增强方法的示例图Fig.1Example diagrams of MixUp，CutOut，and CutMix data enhancement methods图 2Mosaic数据增强方法的示例图Fig.2Example diagrams of Mosai

23、c data enhancement method32023年 10月 15日Computer Engineering 计算机工程能力，并使用反卷积层增加了上下文信息，提升了多尺度目标及小目标的检测精度。文献 23 提出一种基于稀疏连接和多尺度融合的 Inception-SSD行人检测方法，使用 Inception 模型代替骨干网络的基础部分，将全连接转换为稀疏连接，有效缓解了参数空间大、容易过拟合、梯度分散、模型性能下降等问题。由于 SSD 多层特征图为非连续结构，所得到的信息不足，影响检测性能，因此特征金字塔通过引入自上而下的连接24来解决 SSD模型存在的问题。特征金字塔是目前最常使用的

24、多尺度特征融合方法，针对图像中不同物体具有不同的尺度，利用自下而上的路径、自上而下的路径和横向连接三部分完成多尺度检测。自下而上的路径是卷积神经网络的前向过程，选取每个阶段最后一层的输出构成特征金字塔；自上而下的路径通过从更高的金字塔级别对空间上更抽象但语义更强的特征图进行上采样来生成更高分辨率的特征图；横向连接合并了自下而上路径和自上而下路径的相同空间大小的特征图，将来自低层特征图的详细位置信息和来自高层特征图的丰富语义信息相融合，实现了不同尺度的特征提取，显著提升了小目标的检测性能。特征金字塔结构如图 5所示。文献 25 将 FPN 网络中的 Add融合方式更改为Concat 方式来

25、融合经多次卷积后提取的特征。文献 26 提出一种融合 FPN 和 Faster R-CNN27的行人检测算法，获得了较好的检测效果。文献 28 提出基于 FPN 的路径聚合网络（PANet），在 FPN 后增加自下向上的路径增强，能够缩短信息路径并利用低层中存在的准确定位信息来增强特征金字塔，得到语义信息和定位精度上的双重提升，从而提高了对于多尺度目标的检测能力。PANet结构如图 6 所示，其中，Pi和 Ni表示不同层级的特征图，Ni是由包括Pi等多个特征图融合后的结果。文献 29 针对 FPN 网络存在自顶向下路径中信息稀释导致较低层获得的语义信息有限、高层特征缺乏

26、空间信息的问题，将语义金字塔模块和语义特征融合模块加入检测模型，提出语义特征金字塔网络（SFPN），以解决信息不平衡问题并防止在特征融合过程中发生稀释。文献 30 提出新的图像金字塔引导网络（IPG-Net），创建了一条新的路径来缓解空间信息和语义信息之间的不平衡和错位问题，将IPG-Net信息不断融入主干流，解决了深层空间信息不足和小物体特征丢失的问题。文献 31 提出图特征金字塔网络（GraphFPN），该网络的拓扑结构能够动态适应输入图像的内在结构，并支持所有尺度特征的同时交互，继承输入图像的超像素层次结构，使用上下文层和等级间交互层来分别促进相同尺度内和不同尺度间的特征交互，避免了 F

27、PN 网络中来自非相邻尺度的特征只能间接交互的问题。1.3超分辨率细节信息生成相较于低分辨率（Low-Resolution，LR）图像，高分辨率（High-Resolution，HR）图像的像素密度较高，能够提供更多原始场景下精细的细节信息和可区分的特征，在检测中能够获得更佳的检测效果。因此，生成超分辨率图像也是对小目标的检测精度进行改进的一种有效方法，旨在从相应的低分辨率特征中恢复高分辨率特征，将生成的高分辨率图像作为检测模型的输入，获得更多小物体的细节信息。目前，该类方法大部分主要通过生成对抗网络（Generative Adversarial Network，GAN）32的方式将小目标的特

28、征转化为与中大型目标一样或相近的特征表达来恢复或重建高分辨率图像，其中生成器用于从低分辨率图像中生成超分辨率图像来欺骗判别器，判别器对真实图像和生成器生成的仿真超分辨率图像进行区分，预测目标的类别和位置，整体流程如图 7所示。图 5特征金字塔结构Fig.5Structure of feature pyramid图 6PANet结构Fig.6Structure of the PANet4第 49卷第 10期曹健，陈怡梅，李海生，等：基于深度学习的道路小目标检测综述文献33将 GAN 引入小目标检测构建一种Perceptual GAN，基于深度残差特征的生成器模型将底层特征

29、作为输入，将小物体的原始较差特征转换为具有高判别力的特征，从而在中间表示上生成超分辨率图像，判别器通过对细粒度细节信息的生成进行指导以提高生成目标的质量，有利于小目标的检测。文献 34 提出一种可与多种检测器相结合的 SOD-MTGAN，在生成器中引入超分辨率网络实现对小目标图像的大范围上采样，生成超分辨率图像，并在判别器中引入用于目标检测的分类和回归损失进行联合识别与反向传播，以进一步指导生成器网络生成超分辨率图像，使得小目标在检测中更易定位和识别。文献 35 提出一种新的特征级超分辨率图像生成方法，通过空洞卷积对网络输入的低分辨率特征感受野和目标高分辨率特征感受野进行匹配，提高超分辨率图像

30、生成质量，并对超分辨率生成器进行直接监督，提高训练稳定性，总体模型结构如图 8 所示，其中，I 为原始输入图像，0.5 表示对图像进行下采样，F 为来自原始图像的低分辨率特征，T 为 SR 目标提取器提取到的真实目标的超分辨率特征，S 为生成的超分辨率特征。文献 36 使用超分辨率子网络从大规模行人中恢复小规模行人的详细信息，将分类任务和超分辨率图像生成任务集成在一个统一的 JCS-Net框架中，使得重建图像特征更适合小尺度行人的检测。文献 37 提出一种新的静止小波扩张残差超分辨率图像生成网络（SWDR-SR），以极大地增强图像的边缘信息并减少模糊现象，从而改善行人的检测效果。1.4上下文信

31、息联系加强在一张道路图像中，小目标占比较小，在检测中能够提取到的信息和特征稀少且有限，但小目标周围的区域总是包含很多其他对象的信息以及场景信息，这些信息在检测中能够提供帮助但却容易被忽略，因此加强小目标附近的上下文信息联系，将上下文信息加入小目标的检测，能够有助于增强特征表示，提高小目标的检测精度。文献 38 引入一个简单而强大的空间记忆网络框架（SMN），对实例级上下文进行建模，该网络本质上是将对象实例重新组合成一个伪图像表示。文献 39 对对象之间的关系进行建模，在检测模型中添加对象关系模块以增强检测效果。文献 40 构建一个网络，利用行人实例之间的相关

32、性，将行人目图 7基于 GAN的细节信息生成流程Fig.7Procedure of detail information generation based on GAN图 8特征级超分辨率图像生成模型结构Fig.8Structure of feature-level super-resolution image generation model52023年 10月 15日Computer Engineering 计算机工程标的头顶区域和较低区域作为空间上下文，利用行人与场景之间的相关性，引入 GRU41模块，将编码的上下文作为输入来指导每个候选目标的特征选择和融合，具体的关系上下文结构如图 9

33、所示，其中，节点 v表示选中的感兴趣区域，r表示每对实例节点之间的关系，f 表示感兴趣区域的视觉特征，m 表示其他节点到节点 vi的关系消息，ht+1为 GRU 模型输出的节点状态。文献 42 提出一种用于目标重新检测的空间上下文分析方法（FS-SSD），通过考虑一定距离内多类对象的相互作用，计算不同对象实例之间的类间和类内距离作为空间上下文，以重新验证某些对象实例的置信度，这种重检测方法充分利用空间关系，有助于处理多类小目标检测。文献 43 使用来自更高层的更多抽象特征作为上下文，并从小物体的周围像素中提取上下文信息，然后将上下文感知信息添加到 SSD 网络，以便更好地

34、进行检测。文献 44 提出高效的选择性上下文网络（ESCNet）来解决 SSD 网络上下文探索不足的问题，其中增强上下文模块（ECM）通过利用原始尺度、小尺度和大规模上下文信息来增强浅层特征，而三重注意力模块（TAM）用来融合上下文信息并选择性地细化特征。1.5损失函数改进在目标检测任务中，损失函数具有重要作用。损失函数往往用于检测模型最后一部分，一般的目标检测算法包含两类损失函数：一类是分类损失函数；另一类是回归损失函数，而 YOLO 系列检测算法还包含置信度损失函数。针对不同的检测器和检测场景，选择或设计不同的损失函数会产生不同的收敛效果，通过对损失函数

35、进行改进，可以对小目标取得更高的检测准确率。目前，常用的损失函数改进方法大致可分为两种：一种是对模型本身的损失函数进行优化；另一种是更换模型的损失函数。针对实验中所选用的不同数据集，根据实际需求，对模型本身的损失函数进行优化和调整是提高小目标检测精度的一种有效方法。文献 45 考虑到尺寸小的待检测目标的损失函数通常会被忽略，使得小目标检测精度受到影响，通过调整大小尺度目标对损失值的影响权重，降低大目标误差对小目标检测效果的影响，使得小目标和大目标对损失函数的影响程度相同。文献 46 考虑到道路行人、车辆等各类目标数据量的不同，增加损失函数中目标分类误差的权重，并增强负样本对损失贡献的惩罚，有效

36、降低了小目标的误检率。虽然对模型本身损失函数进行调整能适当提高小目标检测精度，但由于小目标物体在道路图像中占比低、数量少，训练阶段小目标对损失函数的贡献较小，且会加剧样本不均衡的问题。为了缓解这种情况，采用性能更优、收敛速度更快的损失函数替代模型原有的分类损失函数成为目前常用的改进方法。文献 47 设计一种新的损失函数（CUA），通过进一步考虑训练阶段的类别不确定性来指导目标检测，使得网络专注于输出小目标不明确等情况。文献 48 针对现有锚框匹配不平衡的问题，设计尺度平衡损失函数取代 FSSD49、RefineDet50等方法中使用的保持匹配平衡的对应函数，通过在原有的基础上进行加权运算，减少

37、匹配次数多的目标所占的比例，增大匹配次数少的小目标的权重，提高小目标的检测精度和召回率。文献 51 鉴于小目标物体属于困难检测样本，在引入 Focal Loss增大困难样本的损失权重的同时结合反馈机制与空洞卷积，提高了道路小目标的检测精度。文献 52 针对目标预测框出现在真实框的内部时 GIoU53退化为 IoU54使得位置关系无法区分的问题，使用 CIoU55代替 GIoU 作为回归损失，使得目标框在回归过程中更稳定，收敛精度更高。各类道路小目标检测优化方法的优缺点对比如表 1所示。图 9关系上下文结构Fig.9Structure of relational contexts6第 49卷第

38、 10期曹健，陈怡梅，李海生，等：基于深度学习的道路小目标检测综述2数据集、评价指标及性能对比 2.1数据集构建一个小目标检测数据集需要花费大量时间，并且对于小目标的有限像素而言，正确放置边界框的定位等都是有困难的。在目前的研究中，对于小目标的检测并没有通用的数据集，多数研究者选择在一些大型公共的数据集上进行性能验证。当前，道路目标检测领域已经公开了许多公共的大型数据集，包括 KITTI56、BDD100K57、ApolloScape58、D-City59和 Waymo60，这些数据集通常包括数据量大、数据源丰富、应用场景覆盖全面等特点，这对于道路目标检测的方法研究和成果展示起着至关重要的推动

39、作用和贡献。除了前面介绍的几种数据集，研究者还提出了其他的道路目标检测数据集，例如A*3D61、nuScenes62等。1）KITTI数据集2012 年，德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办了 KITTI 数据集，该数据集是目前自动驾驶场景下常用的计算机视觉算法评测数据集之一。KITTI数据集中的图像包含在卡尔斯鲁厄市区、乡村、高速公路等场景中采集到的真实图像数据，采集到的每张图像中最多可达 15辆车和 30个行人以及各种不同程度的遮挡与截断，包含的类别可分为汽车、货车、卡车、有轨电车、行人、坐着的行人、骑自行车的人等 7 种与道路交通有关的对象类别。2）BDD100K数据集20

40、18 年，美国伯克利人工智能研究实验室发布了 BDD100K 开源视觉驾驶场景数据集，该数据集收集了美国不同地区的城市街道、居民区和高速公路的 100 000 个视频，每个视频时长约 40 s，在每个视频的第 10 秒对关键帧进行采样，得到 100 000 张1 280720 像素的图像。该数据集涵盖了晴天、多云、阴天、雨天、雾天、下雪等 6种不同的天气状况以及黎明、黄昏、白天、夜间等不同时段，包含的目标类别可分为公共汽车、交通灯、交通标志、行人、自行车、卡车、摩托车、小汽车、火车、骑手等。3）ApolloScape数据集2018 年，百度发布了一个大规模自动驾驶数据集ApolloScape，

41、其是一个像素级标注的场景解析数据集，图像采集来自中国的北京、上海和深圳。该数据集包括 143 906张像素级语义标注图像，属于业界环境复杂、标注精准、数据量大的公开 3D 自动驾驶数据集，标注精度上超过了同类型的 KITTI 和BDD100K 数据集，致力于向研究者提供具有挑战性的数据支持。4）D-City数据集D-City 是一个大规模行车视频数据集，采集自运行在中国多个城市的市区和郊区的滴滴运营车辆，涵盖了中国不同城市的道路行车场景，提供了更多复杂和具有挑战性的天气、交通等状况，包括道路拥堵、雨雾天气、低光环境、图像清晰度低等。该数据集提供了 12 类道路对象的注释，

42、包括汽车、面包车、公共汽车、卡车、人、自行车、摩托车、开放式三轮车、封闭式三轮车、叉车以及大小街区。5）Waymo数据集2019 年，自动驾驶公司 Waymo 发布了大规模、高质量、多样化的 Waymo 数据集，该数据集包含1 150 个场景，每个场景跨越 20 s，包括在美国凤凰城、山景城和旧金山的城市和郊区捕获的经过良好同步和校准的高质量 LiDAR 和相机数据。目前，该数据集定义了 2D 和 3D 对象检测和跟踪任务，未来研究者计划添加地图信息、更多标记和未标记数据，使其更加多样化。表 2 根据不同的应用场景，简要对这些比较有影响力的常用大型道路目标检测

43、数据集进行了介绍。表 1各类道路小目标检测优化方法的优缺点对比 Table 1Comparison of advantages and disadvantages of various optimization methods for small object detection on roads优化方法数据增强多尺度策略超分辨率细节信息生成上下文信息联系加强损失函数改进具体操作通过随机裁剪、缩放、翻转等操作增加数据量来自不同尺度特征图的信息相融合用于目标检测从低分辨率图像中提取细节信息生成超分辨率图像针对小目标的上下文信息进行编码针对分类和定位损失函数进行改进优点多样化增加小目标样

44、本数量，提高了模型对小目标的识别率和泛化能力多个尺度的特征提取，充分利用了小目标的语义信息和位置信息获取更多细节信息，增强了小目标可区分的特征有助于增强小目标特征表示，提升了检测精度缩小了预测与实际数据之间的差距，提高了检测精度缺点增加了训练时间增加了存储多个尺度特征图的内存空间耗时较长，计算复杂度较高计算复杂度较高不同场景下表现不稳定，需多次实验72023年 10月 15日Computer Engineering 计算机工程除了上述列举的常用大型数据集外，很多研究者也会在 MS COCO6、PASCAL VOC63等包含有关小目标类别的大型数据集或自建的数据集上对检测模型或优化方

45、法进行验证。表 3 对 MS COCO、PASCAL VOC这两类常用的公共数据集进行了简要介绍。2.2评价指标对于道路场景小目标检测的评价指标主要包括检测精度和检测速度这两方面。检测精度主要使用平均精度（Average Precision，AP）和多个类别的平均精度均值（mean Average Precision，mAP）来衡量模型检测性能的优劣，AP 和 mAP 的计算公式分别如式（1）和式（2）所示：AAP=01P()r dr（1）mmAP=i=1CAAPiC（2）其中：C 代表所有类别数；AAPi代表模型对于第 i个类别的物体的平均精度。模型检测速度

46、主要反映了算法的实时性，也是一个重要的评价指标，通常采用每秒帧率（Frame Per Second，FPS），即算法平均每秒检测的图像数量进行衡量。FPS越高，模型检测速度越快，实时性能越好。2.3性能对比一部分优化方法基于 MS COCO 数据集训练模型并进行验证，另外一部分优化方法在 PASCAL VOC 2007、KITTI 道路场景数据集以及自建的数据集上进行模型性能验证，这里将分为两部分进行性能对比。不同检测模型在 MS COCO 数据集上的性能测试结果如表 4 所示，其中，AP50和 AP75分别表示 IoU阈值为 0.5和 0.75时目标检测的平均精度

47、，APS、APM和 APL分别表示小、中、大尺度检测目标的平均精度，最优指标值用加粗字体标示。由表 4 可以看出，文献 21 模型在多个指标上都取得了最佳的检测结果，在多尺度策略的基础上，采用一种新的图像金字塔尺度归一化（SNIP）训练策略，只选取分辨率落入所需尺度范围的目标进行训练，忽略其他目标。通过这种训练设置，可在最合理的范围内处理小目标物体，以此提高了小目标的检测精度，却不影响对中大型对象的检测性能。文献 7 模型基于数据增强的优化方法相比于其他模型性能较差，主要原因为其在大型数据集中仅使用数据增强，对小目标检测的性能提升是有限的，还需与其他方法结合使用

48、。对于同一个优化方法，IoU阈值设置为 0.5时取得的 AP 值较高，当 IoU 提高时，精度也会降低。虽然优化后的模型在小尺度目标上的检测精度有所提升，但整体上小尺度的检测精度与中大尺度的检测精度仍有着明显的差距，仅约为大尺度目标的 1/2，这也说明了小目检测的难度较大。表 2道路场景数据集 Table 2Road scene datasets年份20122018201820192019数据集KITTIBDD100KApolloScapeD-CityWaymo采集数据量14 999张图像,包括7 481张训练图像和7 518张测试图像100 000个视频,10

49、0 000万张图像143 906张图像11 211个视频30 00个平均时长为20 s的视频采集天气晴天、阴天晴天、多云、阴天、雨天、下雪晴天、阴天晴天、雨雾天涵盖不同的天气条件采集时间白天白天、夜间、黄昏、黎明白天黎明、白天、夜间白天、夜间采集位置德国卡尔斯鲁厄市区、乡村、高速公路美国不同地区的城市街道、居民区和高速公路中国北京、上海和深圳中国多个城市的市区和郊区美国凤凰城、山景城和旧金山的城市和郊区功能用途目标检测、物体追踪、场景分割等目标检测、语义分割、多物体检测追踪等目标检测、语义分割、轨迹预测等目标检测、目标跟踪等2D/3D目标检测、追踪等表 3MS COCO和 PASCAL VOC

50、数据集 Table 3MS COCO and PASCAL VOC datasets年份20072014数据集PASCAL VOCMS COCO采集类别数/个2080采集数据量PASCAL VOC 2007包含 5 011张训练和验证图像，4 952张测试图像；PASCAL VOC 2012包含 11 540张训练和验证图像，10 991张测试图像330 000张图像，其中 200 000张已标注功能用途图像分类、目标检测、语义分割目标检测、场景分割8第 49卷第 10期曹健，陈怡梅，李海生，等：基于深度学习的道路小目标检测综述总体来看，针对小目标检测的优化方法对于3个尺度目标的检测性能均有

展开阅读全文