毫米波雷达与视觉融合在现代智慧交通目标检测中的研究综述.pdf

资源描述

1、2023.7,3（4）|专题:数智低碳交通技术毫米波雷达与视觉融合在现代智慧交通目标检测中的研究综述王文博，朱世豪，陈泽宇，张伟斌（南京理工大学电子工程与光电技术学院，江苏南京 210014）摘要：目标检测是现代智慧交通感知的基础研究内容之一，近年来随着传感器技术与机器学习算法的发展，基于多传感器融合的目标检测方法得到了广泛的关注。针对毫米波雷达与视觉融合的目标检测方法展开了较为全面的综述。介绍了目标检测的评估指标与常见公开数据集；简述了毫米波雷达与视觉传感器的标定方法，然后从前融合、后融合、特征融合三个角度对相关数据融合方法进行了对比；结合目前研究现状与难点问题对未来的研究方向进行了展望。

2、研究表明，毫米波雷达和视觉传感器的融合检测方案可以突破单一传感器检测的固有缺陷，在复杂场景下表现出更优秀的检测性能和鲁棒性，是未来实现高等级智能交通的一条可行之路。现有的方法受限于算力、数据集质量、传感器数量等因素，多停留在理论与试验阶段，后续研究应注重实际的复杂场景、融合更多传感器，使其在检测精度、检测速度、鲁棒性等方面更接近于使用，使之更好地服务于工程实际。关键词：交通工程；车辆目标检测；雷视融合；毫米波雷达；深度学习Research advances on millimeter wave radar and vision fusion in traffic object detectio

3、nWANG Wenbo,ZHU Shihao,CHEN Zeyu,ZHANG Weibin（School of Electronic and Optical Engineering，Nanjing University of Science and Technology，Nangjing 210014，China）Abstract：Object detection is one of the basic research contents of traffic perception.In recent years，with the development of sensor technolog

4、y and machine learning，object detection based on multi-sensor fusion has received extensive attention.This paper gives a comprehensive overview of object detection methods based on the fusion of millimeter wave radar and vision.The evaluation indicators and common public datasets of object detection

5、 are introduced.The calibration of millimeter wave radar and visual sensor are briefly described，and then the relevant data fusion methods are compared from the perspective of front fusion，post fusion and feature fusion.Combined with the current research and difficult problems，the future research di

6、rections are prospected.The research shows that the fusion detection scheme of millimeter wave radar and visual sensor can break through the inherent defects of single sensor detection，exhibit better detection performance and robustness in complex scenes，and is 中图分类号:U491.5+4 文献标志码:A 文章编号：2097-017X（

7、2023）04-0002-13收稿日期：2023-05-29基金项目：国家自然科学基金资助项目（71971116）。第一作者简介：王文博（1995），男，博士研究生。研究方向：毫米波雷达、计算机视觉。通讯作者简介：张伟斌（1975），男，博士，教授。研究方向：面向通信、智能交通、人工智能和大数据的交叉融合。2毫米波雷达与视觉融合在现代智慧交通目标检测中的研究综述王文博等a feasible way to realize high-level intelligent transportation in the future.The existing methods are limited b

8、y factors such as computational power，dataset quality，number of sensors and so on，and most methods remain in the theoretical and experimental stage.Subsequent research should focus on the real complex scenes and integrate more sensors to make them closer to reality in terms of detection accuracy，det

9、ection speed，robustness and so on，so as to better serve the engineering practice.Key words：traffic engineering；vehicle object detection；radar and vision fusion；millimeter wave radar；deep learning引言交通感知是智能交通中的一个重要的环节，一直伴随并推动着智能交通技术的发展。近年来随着人工智能、物联网、传感器技术等领域的进步，交通感知技术也得到了翻天覆地的发展。感知的视角得到拓展，遍布于车端、路端、空端等

10、各个维度；感知的方式得到革新，包含视觉、雷达、声纳等各种方式。这些新兴的技术将服务于智能交通的各个领域，包括但不局限于智能运维系统1、信号灯控制2、无人驾驶等领域3，将极大程度地提高交通资源的利用率、车辆行驶的安全性、车辆乘坐的舒适性等。目标检测是交通感知中最基础的研究内容之一，也是计算机视觉领域一直以来的研究热点4。现代智慧交通在目标检测方面提出了一些新的要求：（1）实时性，目标检测需要能够快速响应，以适应动态变化的环境和交通状况。（2）精确性，要能够准确地定位和识别目标，以提高安全性和效率。（3）鲁棒性，需要能够适应复杂多变的天气、光照、遮挡等因素，以保证检测性能的稳定性。与此同时也带了更

11、多的挑战：（1）小目标检测，智慧交通场景中经常会出现小目标，如远处的车辆、行人、自行车等，这些目标在图像中占据的像素很少，难以提取有效的特征进行检测。（2）多尺度检测，目标尺度差异很大，这些目标在图像中占据的像素范围不同，需要不同的感受野进行检测。此外，多尺度检测也需要考虑目标在不同距离下的形变和视角变化。（3）多类别检测，涉及检测的目标类型众多，如车辆、行人、自行车、摩托车、交通信号灯、交通标志等，这些目标在外观、形状、运动方式等方面有很大差异，需要设计有效的分类器进行区分。此外，多类别检测也需要考虑目标之间的相互关系和语义信息。早期基于传统机器学习的目标检测方法较为朴素，例如 Viola

12、-Jones 检测器5-6、方向梯度直方图（Histograms of Oriented Gradients，HOG）7、可变形组件模型（Deformable Part Model，DPM）8等，这些方法通过人工设计特征并结合滑动窗口的思想对图像矩阵进行遍历，最后通过如：最近邻分类器（Nearest Neighbor Classifier，NNC）9、支持向量机（Support Vector Machines，SVM）10等分类方法确定目标标签。此类方法中的特征多由人工选取或设计，鲁棒性不佳；另一方面，滑动窗口使用的过程中相邻窗口的数据具有很大的相似度，造成计算资源的极大浪费

13、。在今天看来，虽然这些方法的检测精度已经远远落后，但是其中的算法思想仍然对如今的方法产生了深远影响。过去的 10 多年中计算机算力的提高使得深度学习技术得到了井喷式的发展，这种数据驱动下的机器学习方法由于其极强的特征提取能力，在目标检测任务中展现出强大的潜力。经典的基于深度学习的目标检测方法包含 SSD（Single Shot Multibox Detector）11，YOLO（You Only Live Once）12和 CenterNet13等一阶段方法14-16；R-CNN17，Fast R-CNN18和 Faster R-CNN19等二阶段方法。不同于一阶段方法直接对图像进行计

14、算并生成结果，二阶段方法先对图像进行候选框提取，再对提取出的候选框进行检测，因此精度较高，但检测速度慢于一阶段方法。虽然现如今的基于视觉的目标检测方法在精度和速度上已经取得了重大突破，但是这些方法并不能很好地应用于现实的交通场景。这是因为交通场景是一个十分复杂的场景，包含不同距离、不同尺度、不同类型的多种目标，这些目标互相交叉重叠，又分布在复杂的前景、背景之上，有时还包含暴雨、暴雪、浓雾等恶劣天气的严重干扰，在这种条件下即使经验丰富的人类也很难分辨，这对基于视觉的目标检测更是一项不可逾越的困难。此外，基于深度的方法很难识别未经过训练的且差异较大的样本，这就需要海量的已标注数据以尽可能囊括所有可

15、能的目标，这对于样本收集、标注和训练都是一项极大的挑战。不同于视觉传感器，毫米波雷达可以在极端天气条件下几乎不受影响的工作，并且由于多普勒效应的存在，毫米波雷达还能直接获取目标距离与速度。然而毫米波雷达数据噪声较多、分辨率低、目标特征点少，很难分辨前景和背景、提取目标轮廓、分辨静止目标。综上 3所述，视觉传感器和毫米波雷达在不同方面具有优势，因此基于毫米波雷达与视觉融合的目标检测方法将在复杂的交通场景下提供优秀目标检测能力。构建毫米波雷达与视觉融合的目标检测包含两个关键步骤：传感器标定和数据融合。各个环节的处理方法将对最终的目标检测性能产生重大影响。因此本文首先介绍目标检测的评估指标与常见数据

16、集，然后对传感器标定与数据融合的过程进行介绍，并重点介绍和对比各种不同类型的融合方法，最后将对现有研究成果进行总结，并展望未来的研究方向。1评估指标与数据集目标检测分为二维目标检测和三维目标检测，由于三维目标检测不仅需要确定待检测物体的类型，还要确定目标在世界坐标中的位置和姿态信息，因此难度更高。1.1评估指标对于一个机器学习方法，通常希望提出的方法内存小、速度快、精度高。对于目标检测而言，常见的性能指标包含精度指标和速度指标。平均准确度（Average Precision，AP）、平均召回率（Average Recall，AR）、平均准确度均值（mean Average

17、Precision，mAP）是最为常见的精度指标。mAP表示各类别AP的平均值，对于不同数据集 mAP 的计算略有不同。其他常见的精度相关指标与其含义如表1所示。1.2数据集数据是人工智能发展的基础，任何算法研究都离不开数据。目前同时包含毫米波雷达和视觉的交通目标检测数据集较少，下面介绍常见的几个数据集：Astyx20数据集是一个以毫米波雷达为中心的，辅助以激光雷达和视觉的数据集。此数据集主要用于三维目标检测，但数据集较小，仅包含 546 帧数据。nuScenes21数据集是 2019 年自动驾驶公司 nuTonomy 建立的自动驾驶数据集。数据采集于波士顿和新加坡的

18、 1000个场景，包含 1个激光雷达，5个毫米波雷达，6 个摄像头共计 140 万张图片、39 万帧雷达点云，23 类已标注物体（截止到文章发表前此数据集新增到 32 类），除此之外还包含车辆轨迹等信息。Zendar22数据集是 2020 年发布的一个无人驾驶数据集。此数据集由毫米波雷达，激光雷达相机等传感器数据构成，共有 27 个场景，包含数万辆已标注的汽车。此数据集包含了环境的语义信息，为雷达和视觉的融合提供了可靠的冗余信息。RaDICaL23数据集是 2021 年针对毫米波雷达和视觉融合发布的开源数据集。此数据集包含 7个场景下数十万帧已对齐的毫米波雷达、视觉、深度视觉、姿态等传感器的原

19、始数据。RadarScenes24数据集是 2021 年发表在 arXiv上的开源数据集，旨在为基于雷达的感知系统提供训练或验证数据。该数据集采集于 4 个 77 GHz 的毫米波雷达和 1 个相机，共包含 158 个序列，5 大类11小类共计 7500个样本。CARRADA25数据集首次发布于 2020年，2021年又发布了新的版本，新版数据集提供了毫米波雷达与摄像头精确的数据标注，可用于各种有监督学习任务。包含 30个序列，共计 12666帧数据，涉及行人、自行车和汽车三个类别。但此数据集数据采集表 1其他常见的精度相关指标与其含义Tab.1Other common preci

20、sion related indexes and meanings指标准确率精确率召回率交并比平均准确率平均精度均值对应英文缩写AccuracyPrecisionRecallIoU（Intersection over Union）Average Precisionmean Average Precision说明是所有预测中预测正确的比例，即真正例（True Positive）和真负例（True Negative）占总数的比例。是所有检测出的目标中检测正确的比例，即真正例占所有正例（True Positive+False Positive）的比例。精确率反映了检测器的查准能力。是所有的正样本中正

21、确检测出的比例，即真正例占所有真实目标（True Positive+False Negative）的比例。召回率反映了检测器的查全能力是预测边界框和真实边界框的交集与并集的比值，用来衡量边界框的定位精度。是在不同召回率下精确率的平均值，对应于 PR 曲线（PrecisionRecall Curve）下的面积。AP反映了检测器在单个类别上的性能，越高越好。是在多个类别上计算 AP的平均值，用来评估多类别目标检测器的整体性能。4毫米波雷达与视觉融合在现代智慧交通目标检测中的研究综述王文博等的场景非真实交通场景，实用性受限。上述数据集均采集于车端，截至本文撰写之时，尚没有使用毫米波雷达的公开数据

22、集。这为路侧感知相关研究带来了巨大的挑战。各数据集的主要信息如表 2所示。2传感器标定由于毫米波雷达和视觉属于两种不同类型的传感器，毫米波雷达返回的是雷达点数据，视觉返回的是图像矩阵，且二者通常具有不同的采样频率，这就导致两种数据在时间和空间上均不匹配，虽然最新的一些研究使用了更为原始的叫做 Radar-cube的数据，但此种数据与图像的差异更大。因此在对毫米波雷达数据和视觉数据融合之前，要进行三个步骤：时间同步、空间校准、滤波与校准。2.1时间同步传感器的时间同步分为两种，硬件同步和软件同步。硬件同步需要定制化的毫米波雷达和摄像机通过硬件来实现，成本较高，同步效果好，一半很少采用。软件同步是

23、应用最为广泛的一种多传感器时间同步方法，同样适用于毫米波雷达和摄像头。软件同步是将雷达和摄像头数据统一到相同的频率，以采样间隔长的传感器为基准，采用向下近似的方式进行帧的时间同步。例如某毫米波雷达的采样频率为 20 Hz，即两帧之间的时间间隔为 50 ms，某摄像头的采样频率为 25 Hz，即两帧之间的时间间隔为 40 ms，以毫米波雷达数据的时间戳为基准，将与之时间最为接近的摄像头帧数据进行同步，如图1 所示。红色表示摄像头数据帧，蓝色表示毫米波雷达数据帧，tn表示第n帧数据，帧间隔为 50 ms，摄像头的第 4帧数据被舍弃。2.2空间校准空间校准的主要目的是使得雷达点与图像中的点相对应，例

24、如文献 26 中假设毫米波雷达坐标系下的点坐标为(xr，yr，zr)，相机坐标下的点为(xc，yc，zc)，毫米波雷达下相机坐标为(xo，yo，zo)，则有如下关系：xc=Rx(-yr)+xoyc=Ry(-zr)+yozc=Rz(-xr)+zo式中Rx，Ry，Rz表示相机坐标下X，Y，Z轴的变换矩阵。文献 27 基于广义逆矩阵，采用最小二乘法生成变换矩阵。然而上述两种方法都极其依赖校准过程，校准过程中专业工具的使用较为不便且成本较高。因此文献 28 设计出了一种校准实验用于从实际传感器获取的数据进行标定，与之类似的，文献29 中提出一种无需雷达反射强度和专用工具的校准方

25、法；文献 30-31 提出了一种借助标记的标定方法，通过对标记的测量实现对点配对，完成毫米波雷达和相机坐标系之间的转换；文献 32 提出了一种易于执行的校准方法，该方法在最小的监督条件下具有很高的可重复性，并能产生高精度的校准结果；文献 30 考虑了相机图像的非线性畸变，将毫米波雷达与相机坐标的相对关系作为约束条件，使用最小二乘法确定标定参数，具有较高的精度。上述方法大大削弱了融合系统对校准误差的依赖性，提高了校准的便捷性；还有一些方法中采用基于验证的校准方式，即通过毫米波雷达和觉传感器对同一物体进行检测，使用检测到的信息进行相互校准。例如文献 27 中首先使用雷达进行目标检测并生成目标列表，

26、然后再通过视觉目标检测生成目标列表，最后进行验证；文献 33 中首先在图像中进行粗搜索，然后再与毫米波雷达检测到的目标进行比较；文献34 中通过自适应背景检测分离出运动目标，并生成感兴趣区域（Region of Interest，ROI），再通过毫表 2交通目标检测数据集信息Tab.2Traffic object detection dataset information：means included and means not included数据集Astyx20nuScenes21Zendar22RaDICaL23RadarScenes24CARRADA25发布年份201920192020

27、202120212021毫米波雷达摄像头其它数据LidarLidar，IMULidar，TracklogRGBD“”表示包含，“”表示不包含。图 1毫米波雷达视觉软件同步示意图Fig.1Schematic diagram of the millimeter wave radar vision software 5米波雷达信息对 ROI 的目标进行验证，实现空间校准。2.3滤波与校准滤波与校准的主要目的是消除信号中的杂波、干扰、错误等成分，以提高信号准确度。卡尔曼滤波器（Kalman Filter，KF）35作为一种最经典的信号滤波方法同样被应用在了毫米波雷达滤波任务中，其根据上一时刻的目标状态

28、预测当前时刻的目标状态，并将预测结果与当前时刻的测量值进行加权作为最终结果。扩展卡尔曼滤波（Extended Kalman Filter，EKF）36将其拓展到了非线性情况，提高了算法在实际环境中的性能。无迹卡尔曼滤波（Unscented Kalman Filter，UKF）37结合无损变换的思想，有效克服了 EKF 估计精度低、稳定性差的问题，进一步提高了非线性分布统计量的精度。文献 27中针对行人识别问题提出了一种毫米波雷达滤波方法，通过帧内聚合和帧间跟踪的方法，从有噪声的原始信号中提取有效的目标信号。文献 34 中通过设计了一种运动目标检测方法，从而将前景、背景分离，以减少毫米波雷达对静

29、止物体检测不佳的弊端。文献 38 从毫米波雷达检测的数据中滤除背景物体，并自动校准相机和毫米波雷达，以减少系统实现的时间成本。文献 39 提出了一种俯仰检测器，为每一帧生成不同的校准参数，用于抵消车辆运行中由于颠簸振动产生的校准误差。3融合方法毫米波雷达与视觉的融合可以分为三个大类，前融合、后融合和特征融合。前融合指的是在目标检测之前进行融合；后融合指的是针对毫米波雷达和视觉分别设计一种目标检测方法进行目标检测，生成独立的目标检测结果，然后对结果进行融合；特征融合是指将毫米波雷达和视觉信息进行特征提取后再进行目标检测。前融合方法速度快、可解释性强、可靠性高，但易受噪声干扰；后融合方法检测部分的

30、设计难度较小，具有相对较高的鲁棒性，但由于检测部分各自独立，因此会丢失信号中的关联性信息，从而限制了此种方法目标检测精度的上限。特征融合方法保留了数据的原貌，从而在利用毫米波雷达和视觉数据之间相关性的方面提供了更多可能，在目标检测精度上具有很高的上限，但此类方法可解释性差，性能开销大，目前仍然需要更多的研究。下面将对这三类方法进行综述。3.1前融合前融合通常采用的方法是利用毫米波雷达的检测结果进行定位，再根据一定的规则生成 ROI，然后在图像中对应的区域进行分类。此类方法中的定位主要依赖于毫米波雷达，目标分类主要依赖于视觉。毫米波雷达数据是一种较为稀疏的数据，因此在确定 ROI时有一定的漏检几

31、率；也容易受到雷达噪声点的影响。3.1.1目标定位与 ROI生成ROI是注意力机制在图像算法上关注的重点区域，前融合相关方法中通过雷达数据为图像提供目标区域。利用 ROI提取的关键区域进行下一步处理时将大幅度减少计算时间并且提高准确率40。然而过大或者过小的区域都将影响后续目标检测的性能，例如，文献 41 中将 ROI设置为以雷达目标点为中心、边长为 3 m 的正方形区域；文献 27，42 中根据目标点与雷达的距离动态确定 ROI，大幅提高了区域大小和位置的精度；文献 43 中使用了一种深度网络用于生成更加鲁棒的 ROI；文献 44-46 利用了车辆的垂直对称性来确定 ROI，实现了精度和计算

32、效率之间的最佳平衡。3.1.2图像分类当 ROI划分完成后即获得了目标的空间位姿，在视觉数据中提取出目标位置的图像，此时目标检测任务被转化为一个标准的图像分类任务。图像分类任务又可以划分为图像预处理、特征提取、分类。图像预处理：图像预处理的目标是对原始图像数据进行二次加工，以缩小检测范围提高检测精度。文献 47 使用 AdaBoost48算法扫描图像上的 ROI，以获取更加精确的目标位置信息 49。根据雷达提供的数据对 ROI进行一定的变换以提高精度与计算速度。文献 50 在图像分类前先进行边缘检测，然后对目标物体进行精准划分，使得检测速度与精度进一步提高。特征提取：特征提取的目的是通过人工设

33、计或深度神经网络对图像特征进行变换，以减少噪声与冗余数据。文献47在特征提取过程中使用了Haar-like特征；文献 27 通过梯度直方图提取特征；文献 51 使用了高斯核函数对 ROI 的图像特征变换，这些方法都使得特征质量提高，优化了分类性能；文献 52 优化了网络结构提高了网络吞吐量，使得模型可以更容易部署在算力受限的嵌入式平台。分类：分类的目的是设计一种分类器以确定目标标签，目前现有的几乎所有分类器都可以直接应用于交通目标分类。例如，最朴素的基于欧氏距离 6毫米波雷达与视觉融合在现代智慧交通目标检测中的研究综述王文博等的最近邻分类器（Near

34、est Neighbor Classifier，NNC）9；基于表示学习的稀疏表示分类器（Sparse Representation Classification，SRC）53、协同表示分类器（Collaborative Representation Classification，CRC）54；基于回归的最小二乘回归（Least Squares Regression，LSR）55、低秩判别最小二乘回归（Low-Rank Discriminative Least Squares Regression，LRDLSR）56、基于潜子空间去噪的子空间学习（Denoising

35、 Latent Subspace Based Subspace Learning，DLSSL）57；基于深度神经网络的 VGG1658，ResNet5059，Xception60和 MobileNet61等。值得一提的是文献 47 在分类环节的参数选择上使用了毫米波雷达提供的距离信息，简化了参数选择的难度，提高了结果的精度。3.2后融合后融合通常采用的方法是对独立传感器获取到的数据进行后处理，利用毫米波雷达和视觉数据的不同性质，对最终的结果进行融合。这类方法中信息来源于多个部分且相对独立，因此具有较高的冗余度，且此层级的数据融合数据量小，融合速度快；但后融合方法通常需要对多个不同分布的数据建立

36、合适的联合概率密度模型，这在设计时具有较高的难度。3.2.1信息感知信息感知部分需要独立的处理毫米波雷达数据和视觉数据，最终生成两组非同源目标检测结果。因此独立检测部分的精度将决定融合结果的精度。毫米波雷达感知：毫米波雷达获取到的数据具有较多的噪声，因此对于算法的噪声抵抗能力提出了较大的挑战。文献 62 提出了一种利用波前重建技术进行目标识别的方法，可以对目标的速度、方位、距离等信息进行感知；文献 63 中将当前时刻的检测列表和历史列表进行关联，以减少噪声干扰。视觉感知：文献 63 使用滑动窗口并通过改进的方向梯度直方图提取特征，结合 Boosting 算法进行目标检测；文献 39 巧妙地利用

37、了行人的对称特点，在视觉检测部分添加了垂直对称性的检测，提高了行人目标的检测精度与速度；文献 64 提出了一种利用光流实现超车车辆检测的方法；文献 65 使用 AlexNet 对图像目标进行检测，并将检测结果分为 6 个类别，AlexNet 的网络结构如图 2 所示；文献66 改进了 Faster R-CNN 算法的特征提取过程，为候选区域生成网络和分类回归网络建立了独立的特征提取网络，使得候选区域生成网络学习到的特征不会进入分类回归网络，提高了目标检测精度；文献67 中使用了 YOLO 进行目标检测，模型网络结构图如图 3 所示；文献 68 提出了一种中心点检测网络，通过识别图像上的中心点来

38、实现目标检测。图 2AlexNet网络结构示意图Fig.2Schematic diagram of the AlexNet network structure 73.2.2信息融合后融合类方法中的信息融合主要分为四种类型，基于列表融合的方法、基于贝叶斯理论的方法，基于 Dempster-Shafer（DS）理论和基于滤波的方法。基于列表融合的方法：文献 65，69 中直接将毫米波雷达和视觉检测的结果列表叠加过滤，这类方法实现方式虽然简单，但仍能很好地解决雷达误报情况。基于贝叶斯理论的方法：文献 70 提出了一种基于贝叶斯的通用数据融合方法，其可以利用包含噪声或不确定性的信息进行推理预测，提高了

39、融合系统的鲁棒性；文献 71 将各种传感器（如激光雷达、毫米波雷达和视觉传感器）集成到传感器融合系统中，该方法使复杂融合系统的结构和信号流易于理解，提高了传感器算法模块的可重用性，简化了不同规格传感器的集成；文献 72 使用椭圆鉴别阈值、衰减函数和简化的剪枝方法改进了跟踪过程，可以在目标遮挡、测量丢失情况下实现鲁棒的连续多目标跟踪。基于 DS理论的方法：文献 63 提出的方法利用来自多个传感器处理模块的检测对象列表作为输入，迭代地获取其中一个输入，并使用传感器模型在临时证据网格中表示，最后进行聚类。此方法可以使用任意多个传感器和后端处理模块具有较高的可扩展性。基于滤波的方法：文献 66 利用马

40、氏距离匹配目标序列的观测值，建立了基于联合概率的函数，该方法提高了环境感知系统的鲁棒性；文献 73 提出一种基于多重卡尔曼滤波框架的综合概率数据关联（Integrated Probability Data Association，IPDA）技术；文献 74 在经典的卡尔曼滤波框架上考虑了传感器极坐标不确定性，提出了一种新的滤波框架，具有更精确的不确定度建模；文献 75-76 提出了一种基于粒子滤波的融合方法，对两种传感器的检测结果进行融合，在扩大了检测范围的同时降低了系统测量的不确定性；文献 77 利用无迹卡尔曼滤波器对毫米波雷达和视觉传感器的目标位置信息进行融合，生成更加稳定的目标位置信息。

41、3.3特征融合不同于前融合和后融合方法，特征融合是近年来诞生的一类新的融合方法，在特征融合的方法中将毫米波雷达的数据和视觉数据同时输入模型，这样的融合方式可以保留数据原貌，从而利用深度神经网络尽可能地发掘任何可能的信息及关联性信息。目前此类方法的研究包括基于特征提取的方法和基于伪图像的方法。3.3.1基于特征提取的方法基于特征提取的方法首先通过特征工程分别提取毫米波雷达数据和图像数据中的抽象特征，然后将两种特征拼接后再进行特征提取，最后将提取到的特征送入目标检测模型中。文献 78 首次提出利用特征提取的方法实现毫米波雷达和视觉信息的融合。作者以经典的 Single Shot Mult

42、ibox Detector（SSD）网络为基础设计了一个双输入单输出的改进目标检测网络，SSD 的网络结构如图 4所示，改进网络的结构如图 5 所示。网络输入 3 通道的图像矩阵与 2 通道的毫米波雷达数据矩阵，二者分别经过特征提取后在图像分支的第二个 ResNet18块后拼接，最后对拼接后的数据进行目标检测。相对于当时的一些方法，此方法在小目标的检测性能上有了一定的提升。文献 79 提出了一种单点目标检测网络RVNet，网络结构如图 6 所示。网络通过两个输入图 3YOLO 网络结构示意图Fig.3Schematic diagram of the YOLO network structure

43、 8毫米波雷达与视觉融合在现代智慧交通目标检测中的研究综述王文博等图 5文献 78 中的网络结构示意图Fig.5Schematic diagram of the network structure in Ref.78图 4SSD网络结构示意图Fig.4Schematic diagram of the SSD network structure图 6RVNet的网络结构示意图Fig.6Schematic diagram of the RVNet network structure 9分支分别接收图像数据和毫米波雷达数据，并通过两个分支分别输出大目标和小目标。该方法在复杂的场景下具有相对较好的

44、鲁棒性。3.3.2基于伪图像的方法文献 80 利用 CNN 网络将每个雷达检测点处理成伪图像，然后将伪图像和视觉图像进行叠加，最终输入目标检测模型中。文献 78 中也对伪图像的方法进行了尝试，直接将 3 通道的图像矩阵和2 通道的毫米波雷达数据矩阵合并成 5 通道的伪图像矩阵，然后送入网络，然而这种简单的拼接在目标检测精度上并未取得较好的效果。文献 81 创造性地提出了一种新的多条件生成网络（Conditional Multi-Generator Generative Adversarial Network，CMGGAN），该网络以毫米波雷达数据与视觉数据作为输入，可以生成包含毫米波雷达信息的

45、图像，能够定性或定量地表达两种传感器所收集到的环境信息，从而实现数据融合。此外，该方法为无监督方式，无需大量的数据标注，拓展了其使用场景。与之类似的，考虑到毫米波雷达数据的稀疏性，文献 82 构建了一个生成网络用于通过雷达数据生成雷达图像。该融合方法可以嵌入到特征提取阶段，有效地利用了毫米波雷达和视觉传感器的特征。文献 83 以 VGG 网络为基础，添加了毫米波雷达数据输入分支，雷达数据通过最大池进行相应地缩放，并额外输入到网络的各层；此外又引入了特征金字塔网络（Feature Pyramid Network，FPN）84，将雷达数据在多个不同尺度的特征上进行融合，通过优化器隐

46、式地调节各层雷达数据的融合权重，从而提高了检测性能，该方法的模型架构图如图 7 所示。文献 85 提出了一种两阶段的图像深度信息补全的方法，该方法首先建立了一个模型用于学习毫米波雷达和图像像素之间的关联性，然后再通过另一个模型对关联后的数据进行处理，生成稠密的深度图，从而将毫米波雷达和视觉融合的目标检测问题转化为了深度图像中的目标检测问题。图像中的检测框投影到图像平面中，生成一幅伪图像，其中目标的每个参数分别占用图像的一个通道，然后使用基于 ResNet5059的网络对伪图像和原始图像的拼接图像进行表征学习，实现目标检测，该方法在检测精度上大幅高于基于规则的方法。4研究现状与未来展望基于毫米波

47、雷达和视觉融合的交通目标检测方法克服了传统单一传感器的局限性，在检测性能上取得了诸多优势；同时此类技术已经实现了从理论阶段到实际运用的过度，并逐渐在无人驾驶、交管控制等领域向更加智能化的方向发展。利用毫米波雷达和视觉融合进行目标检测取得了阶段性的成功，但是技术层面仍然存在诸多不足：（1）降低标定误差：提高传感器标定的精度和鲁棒性。传感器标定是影响融合效果的关键因素之一，目前的标定方法还存在一些局限性，如依赖于特殊工具或人工干预、难以适应动态变化的场景等。未来需要开发更加自动化、实时化和智能化的标定方法，以适应复杂多变的自动驾驶环境。（2）多元传感器融合：目前的融合方法主要利用了毫米波雷达、视觉

48、图像、激光雷达，关于其他模态传感器的融合还比较少。智慧交通中的目标检测早已不再局限于交通科学，更是计算机、电子、机械等学科的交叉领域，还可以考虑其他模态的信息，如红图 7CRF-Net的网络结构示意图Fig.7Schematic diagram of the CRF-Net network structure 10毫米波雷达与视觉融合在现代智慧交通目标检测中的研究综述王文博等外86、声音87、地磁88等。利用更多的传感器信息和模态可以提高目标检测的准确性和鲁棒性，同时也增加了信息融合的复杂性和挑战性。（3）高层次的融合方法：目前的融合方法主要集中在前融合和后融合，特征级融合方法还比较少见。

49、特征级融合方法可以更好地利用深度学习模型提取不同传感器数据中的共同特征，实现更紧密和有效的融合。然而，特征级融合方法也面临着如何提取雷达特征、如何设计适合不同模态数据的网络结构、如何平衡不同模态数据之间的权重等问题。（4）探索更先进的三维目标检测方法：三维目标检测是自动驾驶中更具挑战性和价值的任务，它可以提供更完整和准确的目标信息，如位置、姿态、形状等。然而，三维目标检测也面临着更高的计算复杂度、更大的数据稀疏性、更难的评估标准等问题。未来需要开发更高效、更精确、更鲁棒的三维目标检测方法，以满足自动驾驶的实际需求。（5）更多点位传感器的融合：现有的大多数成果中只结合了单个毫米波雷达和视觉传感器

50、，并取得了一定的效果。然而仅仅借助于 2个传感器具有一定的局限性，因此借助多毫米波雷达和多摄像头的融合方法可以获得更加丰富的数据，为后续的目标检测提供更多更高质量的数据，从而提高交通复杂场景下的目标检测鲁棒性。（6）数据集匮乏：不同于图像数据可以通过人工标注以达到较高的数据质量，雷达数据无法通过人工直接标注。如今的机器学习方法多是数据驱动的方法，算法性能的优劣很大程度上取决于数据的数量与质量。目前针对毫米波雷达和视觉融合的数据集比较匮乏，已标注样本更为稀缺，多数数据集中的样本通过机器学习半自动标注，标注准确性不高，数据集质量偏低。此外目前尚未有开源路侧数据集，这也为路侧目标检测带来了巨大的挑战

展开阅读全文