面向自动驾驶场景的脉冲视觉研究.pdf

资源描述

1、面向自动驾驶场景的脉冲视觉研究DOI 10.15302/J-SSCAE-2024.01.012面向自动驾驶场景的脉冲视觉研究张济远 1，郑雅菁 1，余肇飞 1,2，黄铁军 1,2*（1.视频与视觉技术国家工程研究中心，北京 100871；2.北京大学人工智能研究院，北京 100871）摘要：自动驾驶是计算机视觉重要的研究方向，具有广阔的应用前景。纯视觉感知方案在自动驾驶场景中具有重要的研究价值。不同于传统相机，脉冲视觉传感器能更加灵敏地感受光子，具备比传统视频快千倍以上的成像速度，具有高时间分辨率、高动态范围、低数据冗余和低功耗等优势。本文面向自动驾驶场景，总结了脉冲相机的成像原理、感知能力与

2、优势；围绕自动驾驶相关视觉任务，详细介绍了脉冲视觉影像重建原理与方法，讨论了基于传感器融合的影像增强技术路线；归纳总结了基于脉冲相机的运动光流估计、目标识别检测分割与跟踪，以及三维场景深度估计算法进展及技术路线；梳理了脉冲相机数据及感知系统的发展现状，分析了脉冲视觉的研究挑战；研究提出了潜在解决方案及未来研究方向。脉冲相机及其算法和系统在自动驾驶领域具有巨大潜力，是未来计算机视觉的主要研究方向之一。关键词：脉冲视觉；脉冲相机；自动驾驶；人工智能中图分类号：TP752 文献标识码：ASpike-Based Vision for Autonomous Driving ScenariosZhang

3、Jiyuan 1,Zheng Yajing 1,Yu Zhaofei 1,2,Huang Tiejun 1,2*(1.National Engineering Research Center of Visual Technology,Beijing 100871,China;2.Institute of Artificial Intelligence,Peking University,Beijing 100871,China)Abstract:Autonomous driving is an important research direction in computer vision wh

4、ich has broad application prospects.Pure vision perception schemes have significant research value in autonomous driving scenarios.Different from traditional cameras,spike vision sensor offers imaging speeds over a thousand times faster than traditional cameras,possess advantages such as high tempor

5、al resolution,high dynamic range,low data redundancy,and low power consumption.This study focuses on autonomous driving scenarios,introducing the imaging principles,perception capabilities,and advantages of the spike camera.Besides,focusing on visual tasks related to autonomous driving,this study el

6、aborates on the principles and methods of spike-based image/video reconstruction,discusses the approach to image enhancement based on sensor fusion with spike cameras,and provides a detailed description of the algorithms and technical routes for motion optical flow estimation,object recognition,dete

7、ction,segmentation,and tracking,and deep estimation of three-dimensional scenes based on spike cameras.It also summarizes the development of the spike camera data and systems.At last,it analyzes the challenges,potential solutions,and future directions for spike vision research.Spike cameras and thei

8、r algorithms and systems hold great potentials in the field of autonomous driving and represent one of the future research directions in computer vision.Keywords:spike-based vision;spike camera;autonomous driving;artificial intelligence收稿日期：2023-11-14；修回日期：2024-01-05通讯作者：*黄铁军，视频与视觉技术国家工程研究中心教授，主要研究方

9、向为视觉信息处理和类脑智能；E-mail:资助项目：中国工程院咨询项目“新一代人工智能及产业集群发展战略研究”(2022-PP-07)本刊网址： 2024 年第 26 卷第 1 期一、前言自动驾驶系统采用先进的通信、计算机、网络和控制技术，对车辆实现实时、连续控制。智能的自动驾驶系统可有效地减少事故发生、缓解拥堵、提高道路运输能力、减少驾驶压力等。走向L4、L5级别的自动驾驶时代是未来发展趋势，近年来，围绕自动驾驶系统的相关研究取得了巨大进展。视觉相机、雷达、激光雷达等传感器在自动驾驶感知系统中均起到重要作用。自动驾驶性能在很大程度上取决于感知系统。目前感知系统的主流技术方案有：以视觉相机

10、为主的多传感器融合方案；以激光雷达为主导、其他传感器为辅助的技术方案；未来可能发展至纯视觉感知的方案。视觉传感器作为直接感知场景的信号源，在辅助理解驾驶场景方面发挥关键作用。基于传统快门相机的视觉算法研究已取得巨大进展，并达到可观性能。传统相机采用基于曝光的成像原理。曝光时间的长短将导致过曝或欠曝的成像问题，动态范围较低。此外，离散的曝光过程使帧之间缺乏连续性，丢失了时域信息。神经形态视觉的诞生旨在模拟生物视觉的感知原理及结构，相关硬件、软件、算法及系统成为研究和应用重点。近年来，神经形态视觉不断发展，新型视觉传感器16被研发出来。主流传感器按照采样原理可以划分为差分型传感器和积分型传感器。差

11、分型传感器以动态视觉传感器14,710为代表，感知每个像素的相对光强变化。然而动态视觉传感器只记录像素的相对亮度变化，对运动区域敏感而对静止区域或纹理较弱区域不敏感。积分型传感器以脉冲相机为代表6，其可以有效记录绝对光强，同时提供静态和动态场景信息。脉冲相机的每个像素传感器独立并持续地接收光子，并仅在累积的光子达到阈值时触发脉冲。因此，脉冲相机可以高时间分辨率产生连续脉冲流。脉冲流可以用来在任何给定时刻重建高质量场景影像。动态视觉传感器发展较早，研究内容丰富11,12。早期的影像重建研究多使用优化13,14、正则化15及时间滤波16,17等方案，之后深度学习（DL）方案占据主流1828。在场景

12、理解任务中，使用动态视觉传感器解决光流估计或目标跟踪任务有一定天然优势，事件流的产生往往代表着运动的边缘29，研究多基于此展开3036。目前也有许多研究针对深度估计展开以加强对传感器三维场景的理解3756。脉冲相机的采样机制模拟生物视觉感知系统，其输出数据以脉冲流形式呈现，具有高时域分辨率、低数据冗余、低功耗和高动态范围的优势57,58。这些优势弥补了传统相机感知外部场景的缺陷，从而可以解决自动驾驶场景中的挑战性难题。本文聚焦自动驾驶场景，介绍脉冲视觉原理，分析脉冲视觉在驾驶场景中的感知能力与优势；总结脉冲影像重建方法，讨论传感器融合技术路线；围绕运动估计、目标感知、三维场景感知论述脉冲视觉场

13、景感知方案。此外，本文梳理了脉冲视觉感知系统进展，分析了自动驾驶场景中面临的挑战，提出了未来研究方向。二、脉冲视觉传感器的成像原理与优势（一）脉冲视觉传感器的成像原理受灵长类动物视网膜中央凹采样机制的启发59,60，脉冲相机直接记录具有时空特征的光强信息。它以脉冲形式输出二值流，其数据仅用0或1表示。脉冲相机主要由感光器、积分器和比较器三个部件组成，如图1所示。感光像素阵列在空间上排列在脉冲相机的感光器上，连续捕获光子。接着，积分器持续将光信号图1脉冲相机采样原理示意图161面向自动驾驶场景的脉冲视觉研究转换为电信号，以累积每个单元的电压。比较器检测累积电压是否达到预设电压阈值。当达到阈值时，

14、脉冲被触发，电压将重置为预设值。一个像素上的脉冲生成过程可以表述为：ti-1ti I()t dt=，（1）式（1）中，I(t)描述了光强度，ti和ti-1分别表示第i个和第(i-1)个脉冲的触发时间，是光电转换率。由于硬件电路的限制，输出电路中的单元在固定间隔Dt=25 s内周期性地读出脉冲作为离散时间信号s(x,y,n)。如果空间坐标(x,y)处的像素在时间t处触发脉冲，则将读出脉冲s(x,y,n)=1(n=1,2,)，其中(n-1)DttnDt，否则它将读出s(x,y,n)=0。传感器使用高速轮询在每个离散时间戳n处生成大小为HW的脉冲帧。在固定间隔DtT内，相机会产生一段脉冲流S=s(x

15、,y,t)Tt=1，其尺寸为HWT。图2所示为脉冲相机相较于动态视觉传感器在相同光变化情况下的成像原理示意图。（二）脉冲视觉感知能力与优势传统相机基于曝光原理成像，无法摆脱帧的概念，图3直接展示了脉冲与图像/视频的成像区别。在传统相机连续摄影过程中，每帧曝光时间小于两帧时间间隔。传统成像原理带来两个问题：第一，在类似驾驶等连续摄影的场景中，曝光时间的长短将影响成像质量进而影响感知能力，曝光时间过长将使场景过曝或引入运动模糊，曝光时间过短则欠曝或引入更多噪声；第二，由于曝光时间小于帧间间隔，传统相机的成像过程并不是连续的，丢失了时间连续性，致使感知算法无法充分利用时间上的特征。自动驾驶中许多复杂

16、场景为传统视觉感知算法带来挑战，在路况复杂、光线变化剧烈、光线不足或存在高速运动的场景中，传统相机的感知会出现错误，存在数据采样冗余大、动态范围小和时间分辨率低等问题。在适应极端环境能力方面，脉冲相机相较传统相机存在感知优势。传统相机因存在上述成像上的特点，在驾驶场景中将导致感知能力上的局限性。然而，图4所示的复杂驾驶场景中脉冲相机可以更好地感知环境，图中三个示例分别呈现车辆高速驶过时类似鬼探头的场景、车辆颠簸场景及光线较强时的场景。所示三种场景均使传统相机感知质量下降，产生模糊或过曝效应；而脉冲相机可以较好地恢复这些挑战性驾驶场景的高清、高动态影像。图4所示的室外交通环境中，街道监控或路口车

17、辆交汇等具体场景常常出现高速车辆。对于此类车辆，传统相机产生的剧烈模糊效应使其无法有效感知环境中的对象（如图5所示，传统相机拍摄的图2脉冲视觉传感器脉冲产生原理图图3传统相机与脉冲相机的成像效果图图4车外交通环境中脉冲相机与传统相机成像对比162中国工程科学 2024 年第 26 卷第 1 期车辆等）。利用脉冲相机的成像优势，高质量影像可从脉冲流中恢复出来，从而辅助高速驾驶场景中的视觉感知。图5展示了直接利用脉冲流可以准确预测高速车辆的运动状态，而传统相机在剧烈模糊下无法有效估计车辆运动。利用脉冲相机和传统相机的传感器融合方案，可以有效将脉冲流的高时间分辨率和传统相机高空间分辨率的优势结合

18、起来，实现更优的感知能力。例如，传统视觉和脉冲视觉融合可以恢复高动态范围影像61，使感知过程消除过曝、欠曝等极端问题；图6利用脉冲相机消除视频影像中的模糊效应等62。实际应用中，常规速度情况下的驾驶感知可以只使用传统相机，高速或光线极端情况下可以采用传感器融合方案补偿感知能力。三、脉冲视觉影像重建自动驾驶场景中快速且高质量的重构算法是非常重要的。传统视觉领域中视觉算法研究丰富，脉冲视觉影像重建算法可以有效地将脉冲流转化为视频流并输入现有视觉模型中，完成对环境的感知。脉冲流是连续且不规则的，只包含0和1，人眼或机器无法直接观测和理解场景信息。脉冲流的影像重建是最基础且最重要的视觉任务，也是实现人

19、眼从此类视觉信号中观测场景的基本需求。本章将从两方面阐述此类影像重建任务：直接从传感器中恢复等分辨率、超分辨率或高动态范围影像；借助和传统相机融合方案实现更优影像重建效果。目前脉冲视觉影像重建研究工作丰富，图7展示了脉冲影像重建算法沿时间的发展过程。（一）脉冲影像重建算法研究1.脉冲流直接影像重建算法脉冲相机影像重建算法分为直接分析脉冲时序信息、基于优化的方案与基于深度学习的方案。早期研究直接分析脉冲信息，如统计脉冲数量或相邻脉冲间关系等，早期重建算法在此基础上被提出63。对于高速运动，感受视野中的亮度变化很快。为捕捉瞬时亮度，只使用相邻脉冲间隔（ISI）估计一个像素值，可以通过以下等式表示：

20、Pt(r,c)=CISI(r,c)（2）图5室外交通车辆高速行驶场景中脉冲相机与传统相机运动感知能力对比图6脉冲相机辅助传统相机进行去模糊重建图7脉冲视觉影像重建研究发展时间轴注：TFP为窗口重建纹理法；TFI为间隔重建纹理法；TVS为脉冲神经元重建法；STP为短时可塑性重建法；Spk2ImgNet为“脉冲图像”网络；MGSR为运动引导的脉冲超分法；SSML为自监督互学习重建法；WGSE为小波引导的脉冲增强算法；Spike-SR Net为“脉冲超分”网络。163面向自动驾驶场景的脉冲视觉研究式（2）中，Pt(r,c)是像素(r,c)中t时刻的估计像素值。C表示最大动态范围。ISI(r,c)

21、表示像素(r,c)处的脉冲间隔。此方法被称为TFI。对于静止场景，主要考虑噪声影响。在重建中利用更多脉冲有利于降低噪声。采用较大时间窗口来记录特定时间段内的脉冲信号。TFP方法可用以下公式描述：Pt(r,c)=CNw()r,cw（3）式（3）中，w表示回放窗口的尺寸，Nw(r,c)表示在本时间窗口内(r,c)位置像素上的总脉冲发放数量。然而方法TFI和TFP都存在局限性。图8所示为一个高速运动场景下的TFI（左）和TFP（右）重建结果。TFI方法重建的结果通常会受到脉冲流中的泊松噪声、暗电流噪声等影响而无法输出稳定的信号。TFP方法重建的结果通常会因目标或场景运动幅度较大而产生模糊效应。使用手

22、动超参数部署时间窗口存在局限性，窗口尺寸可选择直接影像重建图像质量。基于脉冲响应模型，可为纹理重建过程增加自适应性63，通过动态阈值和脉冲发放后电位的自动调整以适应输入的光电流。动态阈值可以看作是对输入电流特征的学习过程，因此适用于描述纹理。影像重建也可建模为优化的过程64，考虑物体的运动并利用光流来对齐不同时刻的脉冲。在运动对齐之后，可以对信号采用沿运动轨迹的滤波，以利用时间相关性，同时不引入运动模糊。基于DL方案在目前及未来将作为脉冲视觉重建的最佳解决方案之一。目前利用脉冲流直接进行影像重建可归纳为如图9所示的四种模型：基于卷积神经网络（CNN）的重建模型6567，基于循环神经网络（RNN

23、）的重建模型20,21，基于Transformer的重建模型23，基于脉冲神经网络（SNN）的重建模型24,68,69。基于CNN的算法考虑输入一段脉冲流并重建中间时刻的清晰图像。端到端模型选择一个参考帧并将其周围的一段连续脉冲流作为输入，经计算输出参考帧的影像。采用可变性卷积处理脉冲流的相关性并推断光强是处理脉冲流时间相关性的有效策略65。为了适应雨天、黄昏等不同照明条件场景，结合脉冲相机的物理噪声模型及成像原理，并结合循环建模方案66，能够普适地将一般光照条件下的脉冲数据重构为高清影像。除此之外，增强脉冲影像重建普适性也可通过结合小波变换等频域分析策略67实现，将脉冲流转换为鲁棒的表征形式

24、，以适应不用场景的重建。基于RNN的算法致力于输入流式数据并流式地重建连续影像。基础模型设计可以使用如E2VID模型20的U-Net结构及循环模块结合的方案70。为实现序列信息的有效利用，网络的输入为当前时刻脉冲流表征及此时刻前若干预测所得的重建图像。然而此方法的参数量与推理速度均不理想，为此，可采用全程无下采样顺序连接的卷积层21实现。循环结构的短板是推理过程中的早期重建图像质量偏低，可通过改进E2VID的循环计算策略解决此问题22。加入Transformer结构的算法致力于使用非局部的注意力机智深层次挖掘时空关系。结合Transformer和CNN，ET-Net等模型23因有效提取并融合了

25、CNN的局部特征及Transformer的全局特征而获得出众的性能。SNN是受生物学启发的新一代人工神经网络模型，是处理视觉任务的新工具，特别是在脉冲视觉领域有着巨大潜力，可探索生物系统中智能操作的本质，并通过数学模型推广到人工智能模型，融合了受生物启发的高效神经信息处理机制。此外，其网络架构、配置可更好地匹配脉冲数据（神经元模型、学习规则、仿生结构等）以及拥有理想的低功耗特性，因此可以解决脉冲视觉感知任务。相比于传统的人工神经网络，以SNN为基础设计的类视网膜图像重建框架具备更好的生物合理性。采用时间上图8TFI与TFP影像重建效果图图9基于深度学习的脉冲流直接影像重建算法方案164中国工程

26、科学 2024 年第 26 卷第 1 期连续的脉冲数据，可以在任意采样时刻重建图像，利用SNN中的脉冲时间相关可塑性（STDP）学习规则71驱动网络学习动态与静态区域，使得重建影像同时保留了高速运动和静态背景的细节。然而，类似上述基于能量的优化方式与神经元模型相结合是耗时的，从而削弱了脉冲相机低延迟的优势。大脑的短时可塑性机制（STP）72,73与脉冲流的动态过程有着强相关性，高速图像重建提供可能性69。使用脉冲流作为输入，该方法推导出每个像素的时变放电频率与突触后神经元动力学之间的关系，并进一步推断场景光强，重建图像的像素值。此外，由于STP模型的动态过程会在脉冲发放率发生变化时在一个稳

27、定值附近波动，因此在STP中引入了运动估计方法来增强重建结果。为了克服脉冲相机有标签数据的缺少及在真实环境的泛化性问题，自监督新范式74将运动估计与影像重构联合优化，实现无需标签的强泛化性网络框架。此外，彩色脉冲相机的去马赛克算法75，为脉冲相机重建真彩世界打开新的大门。为了对比不同脉冲影像重建的方法，表1展示了目前脉冲相机主流影像重建方法在不同数据集上的结果对比。其中，真实动态场景数据集（REDS）模拟数据65为利用现有图像数据集模拟生成的脉冲数据，供深度学习模型训练和验证使用，PKU-Spike-High-Speed63为真实世界中所拍摄的高速场景脉冲数据，用于模型的高速重建性能验证。其中

28、模拟数据集使用了峰值信噪比（PSNR）及平均结构相似性（SSIM）作为评价指标，真实数据集使用自然度图像质量评估器（NIQE）及无参考图像空间质量评估器（BRISQUE）作为主观评价指标。2.脉冲超分辨率影像重建算法近年来，脉冲超分辨率影像重建研究主要集中在重建相同空间维度的强度图像上，然而与传统相机相比，脉冲相机的时间分辨率要高出三个数量级以上，由于数据存储与传输效率的限制，感光空间分辨率往往不能很大。通过设计算法来从低分辨率（LR）数据重建高分辨率（HR）图像，使此类脉冲流式数据可以更好地还原高分辨率的场景细节，弥补空间分辨率上的不足。目前利用脉冲流直接进行超分辨率影像重建可归纳为如图10

29、所示的三种：基于优化方案的超分重建、基于RNN的超分重建模型、在脉冲域上直接进行超分。在运动场景中，通过分析脉冲相机每个脉冲的产生原理，可以求解超空间分辨率下的光强76。一个传感器像素发放的脉冲不仅仅携带真实场景同一点的信息，而是携带一个局部空间上的多个位置的光强信息。这是由相机和物体之间的相对运动引起的，即每个脉冲都可以通过某种权重关系映射到场景中的任意位置上。该工作建模了所有脉冲对每个HR图像上像素位置的权重方程，并优化求解。近年来的研究多基于深度学习开展。由于场景或相机自身运动的存在，连续的像素值变化给超分提供了更多线索，大部分DL算法都基于RNN建模。利用光流计算不同时刻与参考时刻的像

30、素运动关系图10脉冲流超分影像重建算法方案表1脉冲流直接影像重建算法质量评价对比重建算法TFPTFITVSSTPSSMLSpk2ImgNetWGSEREDS模拟数据PSNR22.3724.9419.0322.3734.2638.4438.88SSIM0.580 10.715 00.745 20.730 00.971 80.976 70.977 4PKU-Spike-High-Speed模拟数据NIQE4.013.8436.1610.907.394.947.45BRISQUE19.4122.2843.4643.3519.4228.6633.57165面向自动驾驶场景的脉冲视觉研究后，可使用循环网

31、络优化超分结果77。后续研究78使用注意力机制代替光流计算，并加入可变形卷积进行特征对齐，取得了更优的性能。新的超分辨率框架Spike-SRNet79，采用可变性卷积与循环神经网络结合，建模了脉冲时序上的长程相关性。Xiang等80直接利用光流估计提取了相邻脉冲流之间的时空相关性。另外，部分研究81,82将脉冲直接转换为高空间分辨率的脉冲流，进而使重构、跟踪等视觉任务均获得性能的提升。也有研究使用无监督方案并利用对抗训练实现超分重建27。3.脉冲视觉高动态范围影像重建算法普通相机受到传统成像原理的限制，其影像或图片的动态范围十分有限。在使用普通摄影设备对存在过暗、过亮部分的极端场景拍摄时，将会

32、产生欠曝和过曝效果，从而损失画面细节。在驾驶场景中，因剧烈光线变化或环境光条件限制，车辆视觉传感设备或因为拍摄细节损失而导致感知能力下降。与传统相机相比，脉冲相机的连续积分采样原理使其具有高动态范围的成像优势，这为解决在黑暗等极端环境中的感知问题提供了有效工具26,83。在连续脉冲流中，脉冲的稠密程度以及脉冲之间的间隔可以直接反映场景的光强信息，对光线较强或较暗部分均可进行较高质量地记录。利用简单U-Net网络及对抗训练获得可观效果。借助无监督域自适应方案，可完成低光下增强83。利用注意力机制、循环网络等深度学习算法也可以有效综合时域中的高动态信息84,85。（二）视觉传感器融合的重建算法研究

33、脉冲相机与传统卷帘快门相机的成像原理不同，各自具备互补的优势。传统相机虽然无法以超高速完成摄像，但由于其发展时间长，更好的工艺而具备更优的成像质量（包括色彩质量、空间分辨率等）。在实际应用中，利用脉冲相机辅助进行影像重建及增强是重要的研究方向。传感器融合的方案目前已在去模糊、超分辨率、高动态范围重建、视频插帧等任务取得进展。在自动驾驶场景中，高速场景往往需要应对模糊效应，而光线过强或过弱则需要高动态范围成像解决，本节将分别从去模糊及高动态范围重建展开介绍。1.脉冲流辅助去模糊算法本节总结归纳在脉冲相机上的去模糊技术路线及基本思路，如图11所示。首先，解决如何使用算法融合模糊图像与脉冲流进行去模

34、糊；其次，解决真实影像中每帧图像的模糊情况。在建模模糊图像重建过程后，可以通过深度网络提取脉冲流中的运动纹理特征并在特征域融合两个模态信息62。此外，脉冲流的稠密时序提供了物体运动方向的先验，可以通过脉冲流学习额外的运动线索以对齐特征。运动估计也可以结合模糊一致性和光度一致性实现自监督方案86。在实际应用中，视频影像每帧的模糊程度是不同的，且场景不一定总是存在模糊，这导致将模糊程度一致的图像作为输入的方案失效。为此，可独立设计模糊检测模块以驱动模型自动寻找序列中不模糊的图像帧87，用以辅助训练网络。除了不同帧直接的模糊程度不同之外，同一帧不同区域像素具备不同模糊程度的情况88。后续研究继续将输

35、入条件松弛，可以做到输入任意程度模糊的视频影像89，同时考虑到训练数据和测试数据之间的时空分辨率不同时的泛化性问题90。大多数研究都基于两种传感器坐标系是对齐的假设，因为供训练的数据集是基于图像集合成的。可通过学习空间对齐机制以支持两种模态输入的坐标系不同轴的情况91。2.脉冲流辅助高动态范围重建算法在自动驾驶场景中，在夜间或正午时段行驶，图11脉冲辅助去模糊技术路线图166中国工程科学 2024 年第 26 卷第 1 期或在诸如存在强光反射、进出隧道等情况均会造成传统相机过曝或欠曝。脉冲相机采用积分型原理相比动态视觉传感器更加适于直接地记录场景的光强信息。为了解决此问题，Han等92通过

36、累积一段脉冲序列作为模拟的光强图像并融合低动态范围（LDR）图像恢复高动态。其方案将LDR图像转换至YUV域并将动态有源像素视觉传感器（DAVIS）图像通过可学习权重融合并最后通过色度补偿融合为高动态范围（HDR）图像。也可输入基于多次曝光的红绿蓝（RGB）图像及脉冲流，并利用脉冲中的光流信息指导长时间曝光的图像所丢失的时间信息，进而实现HDR61。利用多次曝光的LDR图像结合脉冲流的高频和动态范围信息，二者通过可变性卷积、注意力机制等深度学习模块可以实现互补从而可达到更优的HDR重建效果93,94。在实际应用中，难以实现多次曝光，利用视频序列作为输入以替代多次曝光HDR作为输入的方案95对落

37、地自动驾驶更有价值。对于易出现的暗光场景，Liang等96通过构建跨模态在时空上的相关性矩阵，建立了不同模态和分辨率之间的时空一致性。四、脉冲视觉场景感知算法（一）脉冲视觉高速运动估计算法物体与场景的运动是在三维空间发生的，而光流估计是在无三维几何和运动先验的情况下计算成像平面上像素位移或物体速度的问题。光流反映了物体最基本的运动方向和幅度，在研究目标检测、跟踪、三维场景深度估计及场景重建等其他感知任务中可发挥至关重要的作用，有效准确估计物体及场景的运动状态是自动驾驶领域众多视觉算法的关键研究基础11,97。对于传统相机，这个问题可被描述为寻找不同时刻两个连续图像之间的像素对应关系。然而，由于

38、传统图像传感器的动态范围有限，且当存在运动模糊时基于图像的方法将遇到巨大挑战。脉冲相机具有高动态范围与高时间分辨率的优势，为应对高速运动等极端挑战性场景下的光流估计问题带来新的解决方案。脉冲流由于其不规则的数据形式，无法直接提供绝对空间亮度信息以及空间上的连续信息，给光流估计算法带来新的挑战。目前相关研究一般需要借助一段脉冲流的累积信息以求解光流。相比于传统相机，我们可以认为，脉冲相机产生的脉冲流是时间上连续的，因此理论上脉冲流中包含了整个三维空间上物体的连续运动信息。然而，在实践中求解速度无法匹配流式数据产生的速度且对连续运动信息的求解将给硬件带来巨大的计算量98，因此现有研究普遍会在特定时

39、刻计算光流，如在脉冲发放位置或在人工选择的时刻，其中后者占据多数。脉冲相机通过异步发放脉冲来编码每个像素的绝对光强，携带丰富的纹理信息。在脉冲流中，一个基本的求解运动的思路是借助运动补偿的思想29,99101。如图12所示，在将脉冲沿着运动轨迹即光流对齐后，经过简单TFP的重构后即可获得消除运动的清晰影像，此图像的对比度或清晰度在光流估计准确时应为最大的。对比度最大化框架可进一步扩展，设计目标函数将脉冲对齐至多个参考时刻以防止过度拟合，将轨迹模型优化以更好地处理遮挡，以及通过可通过空间进行多尺度变换来提高收敛性102。为保证理想性能，采用DL方案的脉冲光流估计将更加有效。图13为采用DL方案的

40、脉冲光流的四种技术路线。基于脉冲流对齐的方案。第一项使用脉冲相机探索高速场景中的光流估计研究提出了一种新颖且面向脉冲流的输入表征模块的定制神经网络架构SCFlow103，允许自适应时间窗口选择，以用于处理脉冲流中的固定方向卷积导致运动模糊无法去除的问题。时间窗口的选择应该是根据运动信息动态变化的和有方向的。考虑有关动态视觉传感器的基于对比度最大化的研究思路，在脉冲流上，如果时间窗口的方向与像素的运动轨迹一致，则时间窗口中的平均亮度会更接近像素在该时刻的亮度。为此，引入了脉冲流的一种新颖表征方式光流引导的图12基于运动补偿的光流估计框架167面向自动驾驶场景的脉冲视觉研究自适应窗口（FAW）。光

41、流信息被迭代地用作窗口方向选择的引导信息。该工作的网络骨架采用了传统相机光流估计的经典网络PWC-Net。实验结果证明，该方法不仅可以在真实脉冲数据上获得不错的结果，并领先于其他经典光流估计网络架构。该研究对未来脉冲相机光流估计的研究提供了基准，同时提出了可用于大规模训练的脉冲光流数据集以供脉冲视觉社区使用。脉冲流的稠密光流估计方案。在目前的光流数据集上，序列数据中光流的真值限制在相同时间间隔上，且通常真值较为稀疏。前序光流估计算法以此建立训练过程，无法充分利用脉冲数据的时域优势。为解决此问题，可以将数据流分割为更加精细的片段并对齐时域上精细的运动特征104，或采用序列学习的思路105。Geh

42、rig 重新定义了光流估计任务106，旨在计算每个像素在连续时间上的密集光流。Spike2Flow107将脉冲光流估计在时域上细化并使用循环解码聚合不同时刻上的空间特征，最后估计出一段脉冲流中的稠密光流。基于RNN的脉冲光流估计方案。Gehrig等108首次提出专为密集光流估计设计的CNN模型E-RAFT，利用匹配代价并引入循环结构以结合在时序上的先验信息。脉冲自监督光流估计方案。基于模糊一致性和光度一致性假设，将光流估计和影像重建的联合优化方案74，克服了脉冲数据缺乏光流真值的难题。传统的计算机视觉方法以及ANN架构不适合与脉冲数据的不规则特性匹配。SNN是处理脉冲的理想架构，采用SNN进行

43、模型的设计是可行的109,110，同时可将SNN模型在神经形态硬件上实现，满足高速推理的实时性需求111。同时，为了克服SNN在网络规模较大时的性能下降，可采用ANN与SNN混合建模的方案112,113。采用多模态的方案解决光流估计是目前新兴的方向。结合图像，可进行密集光流估计并可有效解决在只依赖脉冲数据难以估计可靠的密集光流的问题114。最近也有研究探索了神经形态视觉传感器同时与图像、点云融合的新方案，将模态优势互补，提高光流估计和场景流估计的性能115。（二）脉冲视觉目标检测与跟踪算法目标检测、跟踪及分割是自动驾驶中的关键课题，这些高层视觉任务依赖于算法对场景高层语义的分析和提取能力，任务

44、难度更大。传统相机是自动驾驶中的关键感知元件，基于纯视觉的自动驾驶方案在逐渐流行。在基于视觉的智能系统中准确、图13基于深度学习的脉冲光流估计技术路线168中国工程科学 2024 年第 26 卷第 1 期及时地检测行人和车辆、正确地分析场景语义，对于无人驾驶发展和预防交通事故极为重要。由于脉冲相机具备高时间分辨率，其优势可直接体现在高速目标或高速场景的检测、跟踪及分割任务上。对于目标检测、跟踪、分割等高层视觉任务，为保证在自动驾驶场景中的时效性及准确性，采用深度学习的方案更合理。1.目标检测与跟踪在自动驾驶场景中，使用脉冲相机进行目标检测与跟踪的优势是可以利用数据的时间连续性进行连续跟踪且

45、不容易丢失目标。脉冲视觉目标检测跟踪人物的关键点是如何保证性能与计算效率。结合脉冲相机发展与研究现状，我们给出如图14所示的几种技术方案。（1）采用脉冲流直接训练神经网络的方案。通过建立新的脉冲相机目标检测跟踪数据集，可以通过DL方案对脉冲流直接训练。一种思路是每次输入一小段脉冲，并使用现有网络或设计新的网络对脉冲训练116。通过循环建模的方式可提高模型对时域信息的建模能力，采用循环结构将脉冲流紧凑地表示到模型内部中的能力对于实现高精度检测至关重要，同时可根据序列结构限制时间的一致性117,118。（2）采用脉冲域变换的训练方案。由于脉冲的不规则性，现有计算机视觉生态中的网络架构难以直接训练达

46、到最优性能，可以将脉冲域经过简单高效的设计变换至图像域并微调下游的图像域目标检测跟踪网络119。（3）图像至脉冲的蒸馏训练方案。在不建造新数据集的情况下，可以利用现有图像数据集生成模拟脉冲，并利用现有基于图像的网络中间特征蒸馏至基于脉冲的网络。也可采用网络嫁接思路120，使用专门处理脉冲流的前端网络取代处理图像帧的预训练模型的前端网络，使模型借助图像信息完成自监督训练，并且在推理阶段只需要单模态的脉冲流。蒸馏方案的优势是可保证脉冲在检测任务上的性能。（4）SNN方案。直接使用代理梯度可以训练深度SNN实现目标检测跟踪121，或使用SNN的生物启发学习规则训练。SNN中的生物启发学习规则可以和脉

47、冲流数据天然结合，实现无监督训练框架6,69，利用由脉冲相机捕捉的时空信息来捕获固有的运动模式。该模型可以使用短时可塑性机制来过滤冗余信号，并使用STDP学习规则来提取运动模式，实现首个基于脉冲相机的检测跟踪模型。该团队同时在硬件上实现了模型的部署，实现了实时高速检测跟踪122。（5）多模态融合方案，即将脉冲流与图像帧或其他模态结合，完成目标检测跟踪任务123125。Li等123提出了一种结合模态融合的用于车辆检测的联合框架，启发了对于脉冲流的目标检测，可通过SNN接收脉冲流作为输入生成视觉注意力图后与图像流合并输送至CNN中进行融合处理。脉冲相机和动态视觉相机（DVS）两种脉冲流也可以有机结

48、合，实现优势互补124，是脉冲视觉目标检测的新范式。目前基于脉冲相机的目标跟踪研究还处于发展图14脉冲相机目标检测与跟踪技术路线169面向自动驾驶场景的脉冲视觉研究初期。未来基于脉冲相机的目标检测跟踪可以继续挖掘SNN对脉冲建模的潜力，并尝试在神经形态硬件上实现，真正实现对高效、高性能的脉冲目标进行检测、跟踪。2.目标分割目标分割的目的是通过分析并提取视觉高层特征，将像素在空间上分成若干区域，并辅助定位目标位置或对场景进行分析，是自动驾驶中导航和场景理解的关键过程。目前基于脉冲相机的目标分割研究工作处于发展初期。Zhang等67首次探索了在脉冲流上完成语义分割任务。发掘充分表达时序和空间信息的

49、脉冲表征是一个普遍需求，一个通用且有效的脉冲流表征可使脉冲视觉算法性能得到普遍提升。脉冲流包含丰富的时频信息，而小波正是有效的频谱分析工具。通过设计在时域上进行可学习的脉冲小波变换过程，脉冲被变换成为更加鲁棒的视觉表示。在不重新设计下游语义分割网络的情况下，其方法在多个现有的基于图像的模型上获得性能提升。（三）脉冲视觉三维场景深度估计深度估计是三维场景感知、理解的最关键任务之一，基于脉冲相机完成深度估计任务有着巨大的潜力。脉冲相机捕获的脉冲流包含了更加紧密的时空相关性、连续的运动信息以及更加丰富的边缘和纹理信息。因此，对基于异步的、高时间分辨率、高动态的脉冲数据流进行深度估计是一项完全不同于传

50、统相机的视觉任务。本节只考虑使用纯视觉信号而不借助其他信号辅助（如结构光、激光雷达等）进行的研究工作。深度估计任务可分为单目深度估计和多目深度估计。对于单目深度估计，常使用多视角方案或DL算法完成；对于多目深度估计，可通过匹配算法计算视差或直接采用DL算法。脉冲相机由于其积分型原理，比DVS系列相机更适合估计稠密深度图。Zhang等首次提出了基于Transformer编码器解码器架构的脉冲相机单目深度估计算法126，将脉冲流进行时空块划分并融合时域上的浅层局部特征和全局特征，并将编码器使用有时空注意力机制的三维Transformer块结构以从不同时空区域融合特征，辅助理解场景的结构信息。Wa

展开阅读全文