收藏 分销(赏)

深度学习的2D-3D融合深度补全综述_白宇.pdf

上传人:自信****多点 文档编号:581958 上传时间:2024-01-02 格式:PDF 页数:16 大小:1.69MB
下载 相关 举报
深度学习的2D-3D融合深度补全综述_白宇.pdf_第1页
第1页 / 共16页
深度学习的2D-3D融合深度补全综述_白宇.pdf_第2页
第2页 / 共16页
深度学习的2D-3D融合深度补全综述_白宇.pdf_第3页
第3页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、随着自主导航、增强现实和无人机技术等领域对深度感知的需求不断增加,精确的深度感知成为许多计算机视觉应用的关键组件。深度图像的获取和估计深度图中每个像素到拍摄源的距离值是深度感知领域的关键技术。当在室内环境中面对光滑/明亮/透明/遥远场景时,获取的深度图往往会存在一些无效点组成的缺失区域。在室外环境中使用的激光雷达也无法提供密集的深度图,这难以满足自动驾驶、三维重建等高级应用的需求。最新研究1可以不受传感器类型的限制,只需要输入一张RGB加一张深度图,可以补全任意形式深度图的缺失。深度估计使用一个或多个视角下的RGB图像,估计图像中每个像素相对拍摄源的距离。2013年以来,卷积神经网络(conv

2、olutional neural network,CNN)2在图像领域取得了巨大的突破和进展,2014年,Eigen等3首次提出使用CNN估计单张RGB的像素深度。然而复杂的光照条件对相机的基础感知系统影响很大常常导致图像中不规则的像素值。由于缺乏深度先验知识,直接从RGB估计场景深度通常产生较低的推理准确度和较差的可推广性,也容易产生过拟合的结果4。为了解决此问题,学术界开始研究基于深度数据的深度图补全工作。其作为深度估计的延伸,可以同时估计所有像素深度值得深度学习的2D-3D融合深度补全综述白宇,梁晓玉,安胜彪河北科技大学 信息科学与工程学院,石家庄 050018摘要:深度图补全的目的是从

3、深度传感器捕获的稀疏图预测密集像素级深度。它在自动驾驶、三维重建、增强现实和机器人导航等各种应用中发挥着至关重要的作用。最近在这项任务上的成功证明基于深度学习的2D-3D融合深度图补全技术成为该领域的主流方案。论述了该方法近年在业界的研究现状,分析了补全任务常用的数据集与评价指标以及对传感器获取的噪声和稀疏数据的处理方法。将两个模态外观特征的融合方式分为:早期融合、后期融合和多级融合,从提取几何线索和多任务学习角度出发进行归纳分析并对其优势和局限性进行对比。对深度图补全的发展前景和可能的研究方向进行了展望。关键词:深度学习;深度图补全;自动驾驶;三维重建;2D-3D融合文献标志码:A中图分类号

4、:TP399doi:10.3778/j.issn.1002-8331.2209-0284Review of 2D-3D Fusion Deep Completion of Deep LearningBAI Yu,LIANG Xiaoyu,AN ShengbiaoSchool of Information Science and Engineering,Hebei University of Science and Technology,Shijiazhuang 050018,ChinaAbstract:The purpose of depth map completion is to pred

5、ict dense pixel-level depth from sparse maps captured by depthsensors.It plays a vital role in a variety of applications such as autonomous driving,3D reconstruction,augmented reality,and robot navigation.Recent success in this task proves that deep learning-based 2D-3D fusion depth map completionte

6、chnology has become a mainstream scheme in this field.This paper discusses the research status of this method in theindustry in recent years,analyzes the data sets and evaluation indicators commonly used in the completion task,and theprocessing methods of noise and sparse data obtained by sensors.Th

7、e fusion methods of the two modal appearancefeatures are divided into:early fusion,late fusion and multi-level fusion,and the characteristics and problems arecompared from the perspective of extracting geometric clues and multi-task learning.The development prospect and possibleresearch directions o

8、f depth map completion are prospected.Key words:deep learning;depth map completion;autonomous driving;3D reconstruction;2D-3D fusion基金项目:国家自然科学基金(61902108);河北省自然科学基金(F2019208305)。作者简介:白宇(1984),男,博士,讲师,CCF河北分会委员,研究方向为信息物理系统(CPS)、同步系统、深度学习、基于模型的系统设计;梁晓玉(1997),女,硕士,研究方向为计算机视觉;安胜彪(1978),通信作者,男,硕士,副教授,研究

9、方向为集成电子系统和集成电路,E-mail:。收稿日期:2022-09-19修回日期:2023-01-06文章编号:1002-8331(2023)13-0017-16Computer Engineering and Applications计算机工程与应用17Computer Engineering and Applications计算机工程与应用2023,59(13)到稠密深度图。综上所述,深度图补全技术对深度图像的获取和深度估计两方面都具有重要的研究意义。深度图补全作为深度感知的核心技术被列为KITTI5基准的排名任务之一。2018年,Ku等6通过形态图像处理技术人为地补全缺失的深度图,但

10、该方法在lidar帧中很容易出错。近些年,采用深度学习进行深度图补全已有大量研究成果7-18且被证明可以获得比传统算法6更高的预测精度。基于深度学习的深度图补全可分为两类:无RGB引导的深度图补全19-20和2D-3D融合的深度图补全21-24。以激光雷达为代表的深度传感器可以在不受光照条件的影响下提供高精度的3D几何线索,但仅依靠稀疏深度数据会导致缺乏丰富的场景结构信息。近些年的工作21-24表明,添加RGB信息可以显著提升深度图补全的预测精度。这是由于RGB可以提供丰富的语义或边界等强大的场景结构线索,其可以引导稀疏深度图学习缺失位置的深度信息,鼓励平滑区域内的深度连续性和边界处的不连续性

11、从而帮助完成深度图补全。因此基于2D-3D融合的深度图补全成为该领域的主流方法。此类方法大都遵循编码器-解码器的网络架构,可以明显提高深度图补全的密度和精度。目前,基于2D-3D融合的深度图补全仍然面临很多挑战:过滤深度传感器获取的噪声数据、高效标注密集真值、高效融合两个模态外观特征等都是需要解决的关键问题,使用几何线索和多任务学习的方法来增加补全精度也是该领域正在研究的方向。一些方法使用简单的卷积层20或自动编码器25提取深度特征完成预测,最近许多方法中通过加入法线信息1、局部邻域亲和度26和置信度21以及多任务分支27-29,通过无/自监督30学习或合成数据集31解决密集真值缺乏的问题,这

12、都极大地促进了深度图补全技术的发展。随着深度图补全技术的不断发展,部分学者对基于深度学习的深度估计方法32-39进行了梳理总结,但是目前缺少针对基于深度学习的2D-3D融合的深度图补全方法进行总结的文章,因此本文认为对其进行总结分析是必要的。本文首先介绍补全领域中常用的数据集以及解决密集真值标注困难的方法和评价指标。接着对深度传感器获取的噪声和稀疏数据的处理方法进行总结分析。然后针对基于2D-3D融合的深度图补全的精度提升问题将其主要面临的高效融合两个模态外观特征问题分为三种方式:早期融合、多级融合和后期融合,从提取几何线索和多任务学习角度出发进行归纳分析,对上述方法进行交叉比较。最后对深度图

13、补全的发展前景和可能的研究方向进行了展望。1深度补全数据集与性能指标1.1数据集随着深度图补全技术的不断发展,涌现出一系列相关的数据集。表1对这些相关数据集按真实与虚拟场景进行划分。深度图补全任务的中最常见的数据集有以下三种:KITTI5是在真实交通环境下获得的多任务属性数据集,其多被用于自动驾驶研究领域。该数据集的场景主要包括城市、住宅、道路、校园和人。其为目前深度图补全领域使用最广泛的室外数据集。NYU-V240数据集由 Silberman等40在 ECCV 2012上介绍,主要包括地下室、浴室、卧室、书店、咖啡厅、客厅、餐厅、厨房等场景。其为该领域目前使用最广泛的室内数据集。VOID30

14、数据集的深度帧由传感器出厂校准与RGB帧对齐,典型场景包括教室、办公室、楼梯间、实验室和花园,其同时包含室内和室外数据集,也常被用于无监督方法中验证方法的泛化性。表 1 所述的数据集中 DenseLivox、Aerial depth 与SYNTHIA仅用于少数特定方法中,该领域在其上的研究较少。由于室外环境的复杂性,室外的深度预测相比室内更具挑战性,也是目前该任务的各类方法中使用最多的应用场景。NYU-V2、Matterport 3D和VOID的深度数据均由深度相机获取,相比之下激光雷达可以获取更精确的深度信息。目前应用最广泛的KITTI5数据集的稀疏深度图密度仅5%,其提供的半稠密地面真值也

15、只达到30%左右。因此,密集真值标准困难变为深度图补全数据集中需要解决的关键问题。1.2密集真值标注问题的解决方法大多数基于学习的工作都依赖于像素级的地面真值训练。密集的地面真值深度通常不存在,而像素级标注的获取既需要大量的人力,又不可扩展。一些工作试图利用无/自监督的方法来解决缺乏密集真值的问题,通常使用序列化22或立体图像47结合光度损失作为额外的监督信号。文献22最先使用序列图像和稀疏深度图通过稀疏深度约束、光度和平滑损失来实现深度图补全。Wong等30,48使用光度一致性,前后位姿一致性和稀疏点云的几何兼容性,将扭曲图像和原始图像之间的SSIM差异49集成到光度损失中,使用相对少的网络

16、参数获得比文献22预测精度更好的效果。而光度损失与立体声或视频数据一起使用,对这些数据的依赖会导致如视线问题和不连贯移动物体的运动伪像的问题。一些方法29,31使用合成数据集来训练网络。Project-to-adapt31使用驾驶模拟器CARLA50生成的合成数据集来训练网络,后续训练中加入真实域的数据进行监督,结合领域自适应方法来解决没有地面真值的深度补全问题。但真实数据与合成数据之间的领域差距仍然阻碍这些方法的广泛应用。Wong等51寻求从合成数据集中的稀疏点学习拓扑结构,不需要RGB数据,避免了域差异问题。其利用SPP模块增加感受野致密稀疏输入,182023,59(13)但 SPP的最大

17、池化层会在近距离范围丢失细节信息。Wong等48同时实现最大和最小池化来解决该问题,并针对Wong等51提出一个完全可微的稀疏到稠密的模块学习密度和细节之间的权衡以保留远近结构。表2对深度图补全在缺乏密集真值数据集下的解决方法在优点、局限性以及在KITTI评估数据集中预测结果的对比。其中 S 表示有监督,U 表示纯无监督,S&U表示损失函数中包含基于有效输入深度值的监督和基于光度损失等的辅助监督信号。由于深度图补全任务中密集真值标注困难,出现一系列使用无/自监督或使用合成数据集的方法用于弥补这一缺陷。然而无/自监督方法受到如动态、透视对象的影响非常严重,这些情况在现实生活中无处不在,对

18、于使用光度损失作为辅助监督的方法,其只有在接近地面真值时才有效,从而导致其预测性能低于有监督方法。使用的合成数据集与真实数据集之间显著的领域差异也会导致在处理真实数据集时效果大打折扣。本文在后续介绍的技术方法中更多介绍有监督方法中的技术。1.3性能指标在深度图补全任务中,对于深度值的预测精度是其最主要的性能体现。该任务中常用的评价指标有RMSE(root mean square error)、MAE(mean absolute error)、iRMSE(inertial root mean square error)和 iMAE(inertial mean absolute error)。从深

19、度计算 RMSE 和MAE,从反深度计算iRMSE和iMAE。这4个评价指标的值越小说明模型预测准确性越高。其中,MAE又称为L1范数,RMSE又称为L2范数,异常值对RMSE的影响更大,大多数现有的方法23,35-36更倾向于使用 L2 损失。iRMSE与iMAE不是直接度量深度误差的指标,在反映模型精度方面不如RMSE可靠,所以RMSE成为深度图补全任务中最重要的性能指标,被选择在排行榜5上排名使得深度测量更具挑战性。本文将RMSE作为主要评价指标,其他的3个指标作为参考数值。如表3所示,对这4个指标进行介绍。表中公式,yi为第i个像素处的地面真值,y?为对应像素点预测的深度值,n为有效深

20、度像素总数。MAE与RMSE是衡量预测精度的两个最常用的指标,也是评价模型的两把重要标尺。一些方法试图从不表1深度图补全数据集介绍Table 1Introduction to depth map completion datasets场景真实场景虚拟场景数据集NYU-V240Matterprot3D41KITTI5VOID30DenseLivox42SceneNet RGB-D43Virtual KITTI44SYNTHIA45Aerial depth46环境室内室内室外室内+室外室内+室外室内室外室外室外拍摄工具来自Microsoft Kinect的RGB和深度相机记录的各种室内场景的视频序

21、列组成分布在上中下的3个彩色相机和深度相机高分辨率 RGB、灰度立体摄像头和3D激光扫描仪记录的数小时交通场景组成配置有同步的640480尺寸的RGB相机和30 Hz的realsense D435i摄像头采集Livox Horizon LiDAR和Intel RealSense D435i拍摄通过统一引擎克隆KITTI的5个视频数据1 449 对密集标记的对齐RGBD,关于3个城市的464个新场景194 400 张RGB-D图像构成超过93 000个深度图,具有相应的Lidar扫描和RGB图像共包括56个视频序列,其中48个是训练集,每个包括4万张图片,另外8个是测试集数据集包括稀疏深度图、密

22、集深度图、RGB和法线图。合并50帧稀疏点云以获得相机坐标中的密集点云该数据集包含来自15 000多条合成轨迹的500万张图像,分辨率为320240由35个虚拟视频(约17 000帧)组成虚拟RGB的13 400帧是在城市内随机获得的,200 000帧从不同季节的虚拟车辆中捕获83 797对RGB-D,19个轨迹用于训练,7个轨迹用于验证。共有67 435张训练图像和16 362张验证图像特点每个对象都标有一个类和一个实例编号包含90个真实建筑规模场景内的 10 800 个全景视图目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集所有测量值都有时间戳可扩展、低成本由于光线追踪,生成的图像

23、可以达到真实的照片级质量可在一定程度上缓解深度信息对光线的敏感问题应用不同的照明条件以提高虚拟RGB图像的多样性专门设计用于模拟在UV-a工作条件下采集的数据白宇,等:深度学习的2D-3D融合深度补全综述19Computer Engineering and Applications计算机工程与应用2023,59(13)同的方面将它们结合起来作为训练网络的损失函数。例如文献54将它们线性组合为损失函数,文献36采用结合 L1 和 L2 的 Huber 损失55来减少误差较大的问题。Huber损失是绝对误差,在误差很小时变为平方误差。超参数(delta)控制误差降到一定值时变为平方误差。当Hube

24、r损失在0,0+之间时,等价为MSE,而在,和,+时为MAE。其结合了MSE和MAE的优点,对异常点更加鲁棒。此外,一些研究31采用了Berhu损失56,它与Huber损失相反,BerHu显示了两种规范之间的良好平衡,这样会产生更加严格的监督,让模型尽量达到最好效果。除上述4种性能指标外,在许多深度评估方法中也经常使用其他一些指标,如REL(relative error):相对误差;REL_sqr(square relative error):平均相对误差;ML(logarithmic mean error):对数平均误差;LRMSE(loga-rithmic root mean square

25、 error):对数均方根误差;fcorrect:阈值准确率,其中REL与f常被用于NYU-V2数据集上评价网络。以上评价指标各自的计算方法为:REL=1Ni=1N|Di-D*iD*iREL_sqr=1Ni=1N|Di-D*i2D*iML=1Ni=1N|logDi-logD*i表2深度图补全在缺乏密集真值数据集时的研究Table 2Depth map completion studies in absence of dense truth datasets文献/年份文献22/2019文献47/2019文献30/2020文献51/2021文献48/2021文献53/2022文献31/2020机制

26、S&US&US&US&UUS&US&U半监督优势提出第一个专门用于深度图补全的自监督框架使用立体图像来生成缺失像素的地面真值深度训练单目序列图像,网络参数少从合成数据集的稀疏点云学习拓扑,避免了域差异问题保留远、近结构最先将视觉 SLAM 中的线性特征作为新的测量方法引入补全网络证明了适应合成稀疏深度相比RGB是提高性能的关键局限性不能很好地推广到包含许多无纹理区域的室内场景,此时使用PnP52可能会失败,网络设计复杂立体设置不可避免地降低方法的通用性分段平面假设过于粗糙,容易在点很少或结构复杂的区域发生误差没有考虑合成数据集不代表真实数据的情况

27、依赖池化层填充密度较低的点特征,复制粘贴的痕迹在最终的预测结果中依然存在网络设计比较复杂,运行效率低需要使用额外的合成数据集损失项深度+光度+平滑度深度+立体+平滑度深度+光度+平滑度(深度)+光度+平滑度+拓扑深度+光度+平滑度深度+光度+平滑度合成+真实深度RMSE/mm1 299.851 263.191 230.85847.221 182.811 128.011 062.48应用场景避障、3D映射、定位自动驾驶、机器人导航、增强现实SLAM跟踪自动驾驶自主导航视觉SLAM噪声滤波、自动驾驶表3深度图补全评价指标介绍Table 3Introduction of depth map comp

28、letion evaluation metrics指标MAE/mmRMSE/mmiMAE/(1/km)iRMSE/(1/km)名称平均绝对误差均方根误差逆平均绝对误差逆均方根误差计算公式1ni=0n|y?i-yi1n|i=0n(y?i-yi)21ni=0n|1y?i-1yiRMSEy,其中:y=(y2-y1,y3-y2.-yn-1);y=i=1nyi-yn-1=std(y)说明值越小表示与原始数据拟合程度越高,虽能较好衡量回归模型的好坏,但是绝对值的存在导致函数不光滑,在某些点上不能求导值越小表示点集中在最佳拟合线周围,该指标突出显示误差较大的预测值越小说明预测深度的倒数和真值的倒数差距越小该

29、指标是RMSE由预测数据梯度的标准差划分得出,旨在帮助了解模型预测观测值变化的能力,值越小说明预测深度的倒数和真值的倒数差距越小202023,59(13)LRMSE=1Ni=1N|lgDi-lgD*i2fcorrect=max(DiD*i,D*iDi)=其中,N为像素总个数,Di为第i个像素的预测深度值,D*t为对应像素的地面深度真值,为设置的阈值,通常所设置的阈值为:1.25、1.252、1.253。此外,一些研究人员在各自的任务中加入针对性的评价指标用于更精细地评估深度值,如文献57在mobile intelligent photography and imaging(MIPI)数据集上训

30、练网络,并使用新的评价指标EWMAE、RDS、RTSD评估预测效果。考虑到RMSE与MAE不能很好地代表三维形状和结构的真实质量,文献58使用RMSE-GT与RMSE-Edge结合对预测效果进行更全面的评价。由于上述评价指标针对性较强,所以很难用于其他网络的预测评估。2数据特点分析多径干扰和深度模糊59导致深度传感器固有的噪声和稀疏性,深度图补全的目标则是从一个有噪声的稀疏输入X产生一个密集和去噪的深度映射Y。目前,业界产生多种解决输入的噪声和稀疏数据的方法。2.1噪声数据处理方法2.1.1不确定性估计在深度图补全任务中可靠的不确定性估计与预测精度同等重要。激光雷达采集的稀疏和不规则的数据中包

31、含噪声数据较多。噪声的主要来源是激光雷达点云投射到RGB相机后产生的透视伪影。周聪60使用双边滤波对深度图进行去噪会造成深度图像的细节信息的损失,使深度图像整体模糊。目前很多方法中通过加入置信度预测部分增加预测的可信度,学习到的置信度权重会使网络将注意力更多地放在某一输入类型上。Fusionet在两个分支中都使用了不确定性产生置信度掩码9。Deeplidar从RGB图像中学习置信度掩膜代替二进制掩膜输入到表面法线路径21,提高远距离区域的深度精度。Xu等61将置信图建模估计为拉普拉斯分布来预测稀疏深度的不确定性并在精细化模块中阻止误差的传播。DSPN同文献61一样建模置信图62,使用更少的迭代

32、和像素点获得更好的性能。以上方法对于鼓励相关像素的传播不是最优的,其只是抑制无关像素的传播。基于此,NLSPN将置信度与亲和力归一化相结合成功地消除低置信度像素的影响24。Yin等63使用地面深度真值与COLMAP深度之间的不一致来屏蔽噪声最大的区域64,与NLSPN相比24,其对于输入噪声更有鲁棒性。Senushkin等65将来自两个模态的特征通过SPADE对来自掩码的特征进行调制来提高对不同类型噪声的鲁棒性。以上方法通过学习一些中间置信掩码来减轻网络中受到干扰的测量值的影响,但都没有证明中间置信掩码的概率有效性,也没有为最终预测提供不确定性度量。2.1.2不确定性全建模Eldesokey等

33、66完成在场景深度图补全中对不确定性的全建模。通过归一化卷积神经网络(NCNN)以自监督的方式学习置信度估计器来识别输入中的干扰测量,在抑制扰动测量数据后将他们输入到网络中来处理稀疏和噪声数据。该文还提出一个概率版本的NCNN(PNCNN),为最终预测产生具有统计意义的不确定性度量,生成高质量的不确定性度量。Robust由一个多尺度深度补全块和一个不确定性注意残差学习网络组成14,对噪声和缺失数据都具有鲁棒性。尽管前人的研究作出了上述努力,但如何排除不可靠深度的影响仍是一个有待解决的问题,有很大的改进空间。2.2稀疏数据处理方法在大多数情况下,由密集矩阵表示的图像或视频作为CNN的输入。CNN

34、可以通过非线性的卷积层和池化层结合来学习分布式的表示,逐层提取由低到高的特征,但当输入变为稀疏且不规则时传统的卷积运算就很难发挥作用了。为了处理稀疏输入和稀疏特征,Uhrig等20提出稀疏不变卷积,利用可以在每一层中传播的二值掩膜使得卷积操作只作用于稀疏深度数据,其能够更有效地利用CNN处理稀疏输入。该情况下有效性掩膜在经过网络少量层后即可达到饱和状态,会出现冗余并导致输出结果不够清晰。为了摆脱这种局限性,Huang等8提出三种新的稀疏不变操作:稀疏不变上采样、稀疏不变平均和联合稀疏不变拼接与卷积,有效地融合来自不同CNN层的多尺度特征。厉佳男等28利用置信度传播模块在数据的稀疏程度发生变化时

35、得到鲁棒的特征及对应置信度。Wong等51利用SPP致密稀疏输入使更多的神经元在后面的层被激活。文献37采用NasNet的轻量化版本处理稀疏数据。Yin等63创建了一组不同的稀疏模式来训练模型。很多方法65都是在特定稀疏场景下表现更好,未考虑在稀疏程度发生变化时网络的泛化能力,而上述方法对不同稀疏输入的情况都具有鲁棒性。虽然当输入稀疏性在每一帧中恒定时,上述操作对深度图补全任务并没有精度增益,但提升补全网络对不同稀疏程度的泛化能力也是该领域中至关重要的一部分。3技术方法分析两个传感器的外观特征融合是补全领域需首要解决的问题。本章首先对基于外观特征的融合方法进行白宇,等:深度学习的2D-3D融合

36、深度补全综述21Computer Engineering and Applications计算机工程与应用2023,59(13)介绍。在其基础上提升补全算法的精度也是业界需要解决的关键问题,本章根据其解决方法分为:几何线索方法和多任务学习方法。下面将对近年深度图补全算法针对上述问题各自主流的解决方法进行总结分析。3.1基于外观特征的融合基于图像引导的深度图补全是目前业界的主流方法。以激光雷达获取的点云数据为例,从数据结构上说,点云是不规则和无序的,而图像是规则和有序的,这导致了图像和点云处理算法方面的巨大差异。如何高效地融合两个模态信息是该领域所面临的最主要的问题19,21。本文根据目前业界将

37、二者融合的时间顺序分为早期融合、后期融合和多级融合。表4对3种融合方式的概念、模型及各自的优缺点进行介绍。3.1.1早期融合方式早期融合为数据层面的融合,即将图像和稀疏深度图在数据层面上简单连接起来作为网络输入。网络的编码器可以访问所有原始数据并提取融合数据特征,其为多传感器数据融合中最简单且易于理解的融合方式。RGB-D图像为RGB与深度图两幅图像,通常二者的像素点之间具有一一对应关系。Ma等23提出的单一深度回归网络将RGB-D67作为输入直接传入编码器-解码器架构2,即使在较大规模的数据集下进行训练,预测的边界仍然模糊。Ma等22的深度预测分支的每个编码层的输出通过跳跃连接传递给相应的解

38、码层,相比于文献23提高了预测性能。DFinenet68与Ma等22相似并在深度预测和位姿估计分支都做了改进,在其端到端方法中二者都能得到有效的训练,但二者都需要非常深的网络完成预测,这是非常耗时的。一些方法试图加入其他监督信号提升深度图补全的预测性能,如Xu等61通过加入法线信息和不确定性估计作为更多的监督信息使深度图补全更具可解释性,在缺失区域表现更佳。Park等24预测图像的初始密集深度及其置信度、非局部邻域的亲和度,采用编码器-解码器特征连接策略69来同时利用低级和高级特征产生最终的深度预测,对混合深度问题更具鲁棒性。表5给出了以上采用早期融合的深度图补全方法的发表年份、编码器的输入、

39、解码器的输出以及各自的优缺点、在KITTI深度补全数据集上的RMSE值的和应用场景比较。早期融合在特征提取网络之前进行数据融合,未对原始数据进行任何特征提取。激光雷达获取的点云携带的噪声数据对网络后期的特征提取会产生较大影响导致图像被遮挡区域或边界处的深度模糊。想要提高预测精度需要依赖后续特征提取网络中增加精细化模块或其他提升学习能力的模块,达到更加可观的预测效果。3.1.2后期融合方式早期融合并未对原始数据做任何处理,这在一定程度上会影响网络后期的特征提取。后期融合将图片和稀疏深度图分别送入各自的编码器提取特征后进行融合,即在融合图像和深度信息之前将它们转换到相似的特征空间。这可以更好地提取

40、图像的边界和语义特征以及深度信息的空间几何特征,因此在特征级后期将其融合是一个更好的选择。Jaritz等37最先验证了后期融合要比早期融合得到的结果更加准确。Shivakumar等47的两个分支在编码器阶段分别采用空间金字塔池(SPP)分离出上下文线索。Zhu等71在解码阶段逐步融合多尺度下两个模态的特征。DDP33与Wong等30增加跳跃连接融合浅层与深层特征。之前的方法未对稀疏深度分支做特殊处理导致只能在不是很稀疏的数据集5上表现得好。文献72从两个分支的编码器中提取高级语义信息,使用2D2CCA确保两个分支提取的特征是最大相关的。Gu等58利用伪表4深度图补全的3种融合方式Table 4

41、Three fusion methods of depth map completion融合方式早期融合后期融合多级融合原理将多个传感器的原始观测数据直接融合并生成一个单一的特征向量,后输入神经网络中完成特定任务,属于底层数据融合先使用2d-3d模态数据对不同模型分别进行训练,再融合两个模型输出的结果先利用神经网络将原始数据转化成高维特征表达,再与模型的中间层进行融合获取不同模态数据在高维空间上的共性特征流程RGBlidar/depth数据融合模型输出特征提取特征提取特征融合预测RGBlidar/depth输出RGBlidar/depth特征提取特征提取特征融合特征提取特征提取特征融合预测输出

42、优点学习利用了每个模态低水平特征之间的相关性和相互作用,由于只需要单一模型的训练,使得该方法的训练相对更容易融合模型的错误来自不同的分类器,这些错误往往互不相关、互不影响,不会造成错误的进一步累加可以灵活地选择两个模态特征融合的位置缺点无法充分利用两个模态数据间的互补性,且存在信息冗余问题未考虑特征层面的模态相关性、融合难度比早期融合高计算复杂,深度特征转换开销大222023,59(13)深度图校正稀疏输入并通过DCU单元融合两个模态的特征。Chen等35将三维点的局部和全局几何结构信息进行编码,在边界过于光滑的区域重构具有清晰边界的精细深度,以上网络泛化性更好。不同于以上直接串联或累加的朴素

43、融合策略,ACM-Net7的自适应对称门控融合(SGFM)策略以并行结构融合两个模态的上下文表示,更好地模拟多模态之间的互补信息,但该网络的非网格卷积通过图传播实现,增加了网络的计算成本。后期融合的难度高于早期融合,预测精度高于早期融合。一些方法通过相对复杂的方式融合特征或对深度信息做更加细致的特征提取均会提高后期融合的预测精度。但后期融合通常将两个模态特征提取视为独立的过程。深度补全任务的独特之处在于其输出的一部分已经在输入中可见,可观察的深度测量值和对应的图像像素之间的关系可以通过在深度值不可观察的位置强调来自图像域的信息来帮助补全深度图。因此,后期融合也未能成为该领域最好的融合方式。3.

44、1.3多级融合方式深度图补全作为三维重建、自动驾驶等视觉任务的基础,其浅层特征需要进行多次非线性变换和融合以达到满意的补全精度。多级融合充分融合两个模态的特征信息,在多个阶段将RGB的语义信息与深度空间几何结合来帮助深度图补全,是目前在多模态外观特征中的主要融合方式。一些方法在多个阶段简单融合两个模态的特征来实现深度图补全。如Huang等8、MSG-CHN12和Robust14将图像分支作为附加的引导信号简单连接到各个尺度块的稀疏深度特征图,充分融合两类特征信息。Fusionet使用早期和后期融合相结合的方式预测密集深度图9。Deeplidar多次使用DCU单元融合两个模态特征解决缺失值的边界

45、附近产生伪影的情况21。Xiong等11通过乘积融合两个模态的特征,结合空间变化的内核获得比Deeplidar更好的预测性能21。Chen等10通过简单地按顺序堆叠2D-3D融合块来创建不同规模的网络。PENet将颜色主导分支与深度主导分支相应的编码器特征进行串联13,前者的深度预测结果也输入到后者进行后续的深度预测。不同于以上简单融合两个模态特征的方法,Guidenet受引导图像滤波的启发15,提出的新型引导卷积模块生成的多模态特征融合核在多个阶段融合两个模态的特征,捕捉深度值在急剧的深度不连续或物体边界附近的快速变化。Lee等16在文献9的基础上开发了一种具有交叉引导的深度卷积体系结构,在

46、编码过程中使用注意力机制在多个阶段交换两种模态的信息。RigNet在两个分支中使用重复沙漏网络和基于动态卷积的新型重复引导模块使用高效的引导算法和自适应融合机制逐步学习精确的深度表示18。KBNet第一次在深度图补全中考虑RGB的3D表示48,该网络架构简单,但严重依赖相机校准的参数矩阵,对后续工作产生很大的不确定性。上述方法都忽略了在微观层面上对RGB和深度信息的整合,单阶段的特征融合不够充分,限制了这些方法的性能。FCFR-Net首先使用RGB和稀疏深度图预测粗略深度图17,然后利用通道混洗提取操作从RGB与粗略深度图中提取更多具有代表性的特征,利用基于能量的融合操作对其进行更加精细的融合

47、,得到的边界更加清晰。之前的方法非常依赖RGB图像提供丰富的语义信息,然而RGB图像容易受到突然光照变化的影响导致像素值不规则。语义图的像素值是统一的,不规则性较表5使用早期融合的深度图补全方法比较Table 5Comparison of depth map completion methods using early fusion算法/年份Sparse-to-dense23/2018S2D22/2018Dfinenet68/2019PwP61/2019NLSPN24/2020编码器输入解码器输出RGB-D预测的稠密深度图RGB-D预测的稠密深度图RGB-D预测的稠密深度图RGB-D法线图、深

48、度图、置信图RGB-D深度图、置信图、非局部邻域亲和度优势网络架构简单,随着深度样本数量的增加,精度趋于饱和1.深度估计+位姿估计2.深度网络+跳跃连接1.两个分支联合训练2.位姿估计网络对 Sfm-learner70做改进1.深度预测+精细化网络2.利用法线信息获得更多细节信息置信度的可学习亲和归一化迭代地进行非局部空间传播局限性未 考 虑 噪 声 输入,未对图像顶部提供监督信号未 考 虑 噪 声 输入,自监督网络预测精度差网络结构复杂,预测精度较差不能完全防止置信度低的深度值的传播受固定亲和值影响,泛化性差RMSE/mm自监督1 299.85 814.73943.89777.05741.6

49、8运行时间/s监督0.08 0.080.020.100.22应用场景机器人、自动驾驶、增强现实和3D地图机器人任务微型飞行器、机器人技术语义分割、三维重建、SLAM增强现实、无人机控制、自动驾驶白宇,等:深度学习的2D-3D融合深度补全综述23Computer Engineering and Applications计算机工程与应用2023,59(13)少,语义深度在物体边界附近更加可靠。所以 Nazir等73增加语义引导分支帮助深度图补全实现在以上方法中最优的预测性能。表6给出了各种采用多级融合的深度图补全方法的网络架构、发表年份以及优缺点和在KITTI、NYU-V2深度补全数据集上的RMS

50、E值和应用场景的比较。表6使用多级融合的深度图补全方法比较Table 6Comparison of depth map completion methods using multi-level fusion算法/年份KBNet48/2021HMS-Net8/2020Xiong等11/2020Lee等16/2020Fusionet9/2019MSG-CHN12/2020Deeplidar21/2019Chen等10/2019Robust14/2022Guidenet15/2019FCFR-Net17/2021PENet13/2021RigNet18/2021SmeAttnet73/2022网络架构分支图像+深度深度+图像图像+深

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服