收藏 分销(赏)

基于深度学习的多视图立体重建方法综述.pdf

上传人:自信****多点 文档编号:582848 上传时间:2024-01-02 格式:PDF 页数:21 大小:4.47MB
下载 相关 举报
基于深度学习的多视图立体重建方法综述.pdf_第1页
第1页 / 共21页
基于深度学习的多视图立体重建方法综述.pdf_第2页
第2页 / 共21页
基于深度学习的多视图立体重建方法综述.pdf_第3页
第3页 / 共21页
亲,该文档总共21页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、多视图立体重建(Multi-view stereo Reconstruction,MVS Reconstruction)的目标是根据一组已知摄像机参数的多视角图像来重建场景的三维模型,是近年来三维重建的一类主流方法。本文针对最新的近百个基于深度学习的 MVS方法做了较为系统的算法评估对比。首先,对现有的基于监督学习的 MVS方法,按照特征提取、代价体构建、代价体正则化和深度回归的重建流程对各算法进行梳理,重点对代价体构建和正则化这两阶段的改进策略进行归纳总结,对于无监督的 MVS 方法,主要分析各算法损失项的设计,并按照其训练方式进行分类;其次,总结了 MVS 方法常用的实验数据集及其对应的性

2、能评价指标,进一步研究特征金字塔结构、注意力机制、由粗到精等策略的引入对 MVS 网络性能的影响;此外,介绍了 MVS 方法的具体应用场景,包括数字孪生、自动驾驶、机器人技术、遗产保护、生物科学等领域;最后,提出关于 MVS改进方向的建议,并对多视图三维重建未来的技术难点与研究方向进行探讨。关键词:多视图立体;三维重建;深度学习;深度估计;单应性变换中图分类号:TP394.1 文献标识码:A doi:10.37188/OPE.20233116.2444Review of multi-view stereo reconstruction methods based on deep learnin

3、gYAN Huabiao1,XU Fangqi1,HUANG Ler2*,LIU Cibo1,LIN Chuxin1(1.School of Science,Jiangxi University of Science and Technology,Ganzhou 341000,China;2.School of Electrical Engineering and Automation,Jiangxi University of Science and Technology,Ganzhou 341000,China)*Corresponding author,E-mail:Abstract:T

4、he goal of Multi-view stereo(MVS)Reconstruction is to reconstruct a 3D model of a scene based on a set of multi-view images with known camera parameters,which is a mainstream method of 3D reconstruction in recent years.This paper provides a algorithm evaluation comparison for the latest hundreds of

5、MVS methods based on deep learning.First,we sorted out the existing supervised learning-based MVS methods according to the reconstruction process of feature extraction,cost volume construction,cost volume regularization and depth regression,focusing on the summary of improvement strategies in the tw

6、o stages of cost volume construction and cost volume regularization.For the unsupervised MVS 文章编号 1004-924X(2023)16-2444-21收稿日期:2022-11-14;修订日期:2022-12-26.基金项目:国家自然科学基金资助项目(No.11765008);江西省自然科学基金资助项目(No.20224BAB202036);江西省教育厅科学技术重点研究项目资助(No.GJJ23005);江西理工大学研究生创新计划资助项目(No.XY2021-S153)第 16 期鄢化彪,等:基于深度

7、学习的多视图立体重建方法综述methods,we mainly analyzed the design of the loss terms of each algorithm.It is classified according to its training mode.Secondly,we summarized the common datasets of MVS methods and their corresponding performance evaluation indexes,and further studied the introduction of strategies

8、such as feature pyramid network,attention mechanism,coarse-to-fine strategy on the performance of MVS networks.In addition,it introduced the specific application scenarios of MVS methods,including digital twin,autonomous driving,robotics,heritage conservation,bioscience and other fields.Finally,we m

9、ade some suggestions for the improvement direction of MVS methods,and also discussed the future technical difficulties and the research directions of MVS 3D reconstruction.Key words:multi-view stereo;3D reconstruction;deep learning;depth estimation;homography transformation1 引 言多视图立体重建(Multi-view st

10、ereo Reconstruc-tion,MVS Reconstruction)旨在根据从多视角拍摄的一系列图像中重建出场景三维模型,是三维重建的一类主流方法1-2,被广泛应用于自动驾驶、增强现实、文物保护、智慧城市等领域。与使用激光雷达、深度相机3等设备的主动式三维重建方法相比,MVS 这种基于图像的被动式三维重建方法具有重建精度高、视野大、成本低、易于推广应用等优点。传统的 MVS 方法2,4-6通过使用多个相机视图之间的投影关系来优化深度值。例如,Schonberger 等人提出了 COLMAP2,4,该方法在特征匹配阶段采用手工制作的特征,COLMAP 会利用光度一致性同时估计视角的深

11、度值和法向量值,并利用几何一致性进行深度图优化。Xu 等人5提出具有多尺度几何一致性、自适应棋盘采样和多假设联合视图选择的 ACMM。传统的MVS 方法在理想的 Lambertian 场景下取得了一定成功,但在处理场景的弱纹理区域和反射表面的密集匹配时,重建完整度有待提升,且重建效果受光照强度和采样角度等外部因素影响严重。因 此,基 于 深 度 学 习 的 MVS 算 法 应 运而生。基于深度学习的 MVS 方法可分为两种类型:基于体素的 MVS 和基于深度图的 MVS。基于体素的方法7-8使用训练的网络回归每个体素的占用率,但体积表示方法存在巨大的内存消耗。另一种重建方法是首先估计每个视图的

12、深度,然后回归并融合深度图以形成最终的 3D 点云模型。使用深度图作为中间层可以得到比基于体素的方法更精确的 3D 模型9-12。基于深度学习的方法对场景的全局和局部信息进行编码并提取特征,大大提高了对多视图立体特征匹配的鲁棒性,能够考虑镜面性、反射和环境光照变化等影响因素,有利于低纹理区域和非朗伯表面区域的重建,极大地提高了重建的完整度和整体质量。在之前的综述文章中,Zhu 等人13介绍了MVS 算法的代价体构建原理、深度图后处理方法和相关数据集等,重点梳理了 MVS 方法相关背景和原理,并按照特征提取、代价体构建和代价体正则化三个步骤进行方法的概述。Wang等人14对 MVS 方法的进展做

13、了综述,根据 3D 表示形式将 MVS 方法分为基于深度图的方法和基于体素的方法。本文将重点比较分析基于深度图的 MVS 方法的最新进展,通过对近百篇基于深度学习的 MVS 算法文章的搜集整理,将这些方法 做 了 更 深 入 的 归 类 分 析,主 要 贡 献 可 概 括如下:(1)对最新的基于深度学习的 MVS 方法进行了系统性归纳总结和比较分析;(2)总结了 MVS 方法常用的公开数据集和性能评价指标;(3)分析了基于学习的 MVS 方法中不同改进方式对模型性能的影响,按照重建流程对其进行归类,并对比分析典型 MVS 方法的综合重建性能;2445第 31 卷光学 精密工程(4)探讨了该方向

14、当前研究所面临的挑战与核心技术难点,指出未来可考虑的研究方向。2 基于深度学习的 MVS方法基于深度学习的 MVSNet 是一种端到端的根据多视角图像进行逐视图深度估计并融合生成点云模型的方法11,该方法主要包括四个步骤:特征提取、代价体构建、代价体正则化和深度回归。图 1 为 MVSNet 的基本网络结构。其中,特征提取模块从一张参考图像和几张源图像中提取深层特征;代价体构建是将源图像的特征图单应性变换到参考图像的平行平面上,并采用基于方差的代价度量构建匹配代价体;代价体正则化将经 3D CNN 得到的代价体沿深度方向进行 Softmax 操作,得到像素级深度分布的概率体;深度回归则是根据不

15、同平面的匹配结果判断参考视图像素所在深度,通过求深度的加权平均产生初始深度图。由于正则化时感受野较大,初始深度图的边界可能过度平滑,因此,通过 2D CNN 得到深度残差,加至初始深度图上得到细化深度图,分别对初始深度图和细化深度图进行 L1 损失计算并以权重系数 相加,完成深度图的优化。最后,将不同视图的深度图进行过滤,再经深度融合产生最终三维点云模型。基于学习的 MVS 方法将基于单应性变换的平面扫描算法15引入代价体构建阶段。单应性变换可以隐式编码相机与物体间的几何关系,利用二维图像特征构建三维代价体。首先将源特征图经单应性变换映射到参考图像所在的相机坐标中,得到一个包含物体多角度信息的

16、特征体,再输入到后续网络模块进行深度图的生成与细化。假设在世界坐标系下,参考图像的内参、旋转矩阵和位移矩阵分别为K1,R1和t1,源图像的内参、旋转矩阵和位移矩阵分别为Ki,Ri和ti,nT为目标平面法向量且指向光源,则第i个源特征图Fi和深度为d的参考特征图F0之间的单应性矩阵为:Hi(d)=KiRi(I-(R-1iti-R-11t1)nTR1d)R-11K-11.(1)基于深度学习的 MVS 方法有着重建精度高、方便高效、成本低廉和易于推广应用等优点16-20。许多学者以 MVSNet为基准进行网络的改进,在重建效率、准确性和完整性等方面都获得了极大提升。本文主要将它们分为基于监督学习的方

17、法和基于无监督学习的方法,并将监督学习方法按照其重建流程对改进方案做进一步细分,分析影响重建性能的主要因素,对于无监督学习方法,主要根据训练方式和损失函数进行了归纳总结,概括了提升算法性能的几种改进策略。图 1MVSNet网络结构Fig.1Overall structure of MVSNet2446第 16 期鄢化彪,等:基于深度学习的多视图立体重建方法综述2.1基于监督学习的 MVS方法针对基于监督学习的 MVS 方法,根据重建流程对最新改进方法进行分类,如图 2所示。2.1.1特征提取模块的改进策略前期大多数算法在特征提取模块中使用通用的 CNN 作为骨干网络,如 U-Net21。一些方

18、法18,22-23使用 U-Net提取融合全局信息和局部信息的深度特征。通过多次下采样成倍增大感受野,使特征包含更多的全局信息。同时,从浅层到深层的跳跃连接有助于保留丰富的局部信息。以往基于深度学习的 MVS 方法11,16,24在特征提取模块通常利用下采样扩大感受野,同时降低分辨率以满足内存限制,并将经下采样次数最多的最后一层特征图输入到后续网络。这些方法可能会造成纹理信息丢失25-26,影响重建结果的准确性。为了提取到更好、更丰富的特征,一些网络19-20,27采用特征金字塔网络(Feature Pyramid Net-work,FPN)26来 进 行 特 征 提 取。CVP-MVSNet

19、20,PVA-MVSNet24和 DRI-MVSNet28采用图像金字塔,能够对多尺度的图像进行特征提取,并且所有尺度的特征图都具有较强的语义信息,但训练时内存消耗大、耗时长。而其他大部分方法采用 FPN 融合多个不同尺度的特征,只增加了较少的计算量,却能够融合低分辨率语义信息较丰富的特征图和高分辨率空间信息较丰富的特征图,并对多个尺度的特征图都进行后续的单应性变换,以促进下一步代价体的构建。引入注意力机制可以使提取到的特征具有更强的表达能力。金字塔注意力网络(Pyramid Attention Network,PAN)29是 注 意 力 机 制 在FPN 上的应用。PA-MVSNet30引入

20、了 PAN,利用多尺度特征金字塔注意力机制,引入尺度不可知注意力模块来捕获自上而下路径中的长距离特 征 对 应,提 取 更 丰 富 的 特 征 信 息。一 些 方法31-32在特征提取阶段引入独立自注意力机制33使网络更聚焦于重要信息,捕获像素之间的相互依赖关系。对于纹理信息丰富的区域,我们期望使用局部感受野,而弱纹理区域应该在更大的范围内匹配。不同于以往通过逐像素匹配的工作,LANet34引入一个远程注意网络,捕捉像素之间的远程相关性以增强图像特征,聚集更多的信息来度量图像之间的相似性。由于 U-Net 顶层特征 图 经 多 次 下 采 样 会 存 在 更 多 细 节 的 损 失,HSF-M

21、VSNet35引入一个特征增强的卷积块注意 力 模 块(Convolutional Block Attention Module,CBAM)36,其关注重要特征,同时抑制不重要特征,与在每一层中执行注意力机制过程相比,采用 CBAM 能够减少训练时间,更加灵活和高效。对于 MVS 中的反射和弱纹理区域的问题,MVSFormer37使用预训练的 Vision Transformer(ViT)38来增强 FPN,可以提供对 MVS模型的全局理解。ASPPMVSNet39将空洞空间卷积池化金字塔(Atrous Spatial Pyramid Pooling,ASPP)40引入 MVS 方法中,利用空

22、洞卷积在不丢失信息的同时进行多尺度特征提取。AA-RMVSNet41、D-CasMVS Net42、ADIM-MVSNet43在特征提取 阶 段 采 用 可 变 形 卷 积(Deformable Convolutional Networks,DCN)44,能够根据局部上下文自适应地扩大感受野,使网络更好地学习边界和无纹理区域。TransMVSNet 45在 FPN 后插入一个由 DCN 实现的自适应感受野模块,以自适应调整提取特征的范围。当一个物体的尺度在图像中变化很大时,传统方法提取的特征会导致图 2基于监督学习的 MVS网络改进方法分类Fig.2Classification of MVS

23、Network Improvement Methods Based on Supervised Learning2447第 31 卷光学 精密工程匹配代价的质量较低,CDSFNet46提出一种曲率引导的动态尺度特征提取网络,该网络可以适应 各 种 对 象 尺 度 和 图 像 分 辨 率。D2HC-RMVSNet47提出一个密集接收扩展模块,融合不同扩展卷积层生成的多尺度特征信息,在不损失 分 辨 率 的 同 时 增 大 感 受 野,实 现 稠 密 深 度估计。2.1.2代价体构建阶段的改进策略将源视图特征图单应性变换到参考视图的不同深度平面中,得到各视图的特征体。代价体构建是把特征体转化为代价

24、体的过程,为适应任意数目的图像输入,许多方法16,17,19-20,22,24,27,34-35,41,47,48-51采用 MVSNet11中基于方差的代价度量衡量视图间的相似性。所得代价体上一点是所有图像在该点深度值上特征的方差,方差越小,说明在该深度上置信度越高。然而,基于方差的代价体构建包含冗余信息,内存消耗大,许多学者针对这一问题提出了改进。2.1.2.1注意力机制的引入Transformer52模型利用自注意力机制来捕获特征的内部相关性,将其引入 MVS 方法中有助 于 感 知 全 局 上 下 文 信 息23,37,45,53-55。TransMVSNet45引 入 了 特 征 匹

25、 配 Transformer(Feature Matching Transformer,FMT),利用内部(自身)和外部(交叉)注意力来加强图像内和图像间的远程全局上下文信息聚合。MVSTR54设计了全 局 上 下 文 Transfor-mer 和 三 维 几 何 Transformer模块,以便提取具有全局上下文的密集特征,实现特征的三维一致性,促进视图间信息交互。考虑到效率问题,一些方法23,53,55采用极线Transformer(Epipolar Transformer,ET)56的 交叉注意力,并利用几何知识沿极线建立多视图三维相关性,避免关注不必要的特征相关性。Liao等人55在特

26、征匹配阶段引入了一种基于窗口的ET 来减少匹配冗余信息。LANet34引入了一个远程注意力网络,选择性地聚合每个位置的参考特征,以捕捉整个空间的长期相互依赖。MVSNet+57提出基于深度的注意力机制,并引入课程学习(Curriculum Learning,CL)58训练策略进行代价体构建,将深度掩膜作为先验知识并逐渐减少掩膜信息的提供,通过增强学习特征的强度,更好地关注前景对象的深度,得到准确的深度值。通过性能对比发现,引入注意力机制能够提升算法的准确性。2.1.2.2组相关相似性的引入Guo 等人59提出分组相关立体网络(GwcNet),在将源视图的深层特征变换到参考图像的坐标中后,引入分

27、组相关相似性度量,减少代价体的通道数,从而减少内存使用量。首先将参考特征图F0和转换特征图Fi(dj)的特征通道均匀地 划 分 为 G 组,然 后 如 下 计 算 第 G 组 相 似 性Sgi(dj):Sgi(dj)=1Ch/GFg0,Wgi(dj).(2)2.1.2.3可见性的引入尽管采用组相关可以在正则化中衰减不可见像素,但是其对场景内容的变化较为敏感,因此也限制了重建性能。许多方法通过学习视图权重22,41,49,61-62,67进行代价体的构建和聚合,进一步考虑了像素可见性。可见性是指一个三维点在给定的图像中是否可见。被遮挡的像素容易在代价聚合时出错,影响重建准确度。一些方法22,24

28、,49,61,68采用自适应加权的代价聚合方法,利用可见性信息抑制不匹配代价的影响,能够提高重建点云的准确性和完整性。EPP-MVSNet67在代价体聚合上参考 Vis-MVSNet22采用了加权聚合的方式,同时为了节省计算量,只在粗阶段生成权重可视图,后续阶段通过上采样的方式复用权重。ACINR-MVSNet63设计了一种用于自适应聚合的体素视图权重计算网络,利用平均组相关相似性度量来衡量匹配代价,以自适应的方式衡量总代价,有效地抑制了无效信息的负面影响。CDS-MVSNet46利用曲率信息估计像素可见性,法向曲率可以隐式地提供曲面的层次细节信息,通过去除错误匹配的像素,提高匹配代价的质量。

29、这些迭代方法反映了引入可见性遮挡推理能够提高 MVS 算法的准确性,但由于代价体是一个 4 维张量,用传统方法进行代价体聚合时,会引入大量参数限制了效率。针对该问题,中国科学技术大学团队提出了一种高效立体匹配网络自适应聚合网络(Adaptive Aggregation Network,AA-Net)69。AAModules 包 括 同尺 度 聚 合(Adaptive Intra-Scale Aggregation,ISA)模 块 和 跨 尺 度 聚 合(Adaptive Cross-Scale Aggregation,CSA)模块。对于弱纹理甚至无纹2448第 16 期鄢化彪,等:基于深度学习

30、的多视图立体重建方法综述理区域,利用下采样更能提取高级语义信息,而对于纹理丰富的区域,又需要较高分辨率的深度估计来获得纹理信息。AA-RMVSNet41首先引入视图内聚合模块,利用上下文感知卷积和多尺度自适应聚合提取图像特征,并提出了一种像素级视图间 ISA 模块。这两种自适应聚合模块提高了低纹理区域重建性能,缓解了复杂场景中的遮挡问题。2.1.3代价体正则化网络结构代价正则化是利用空间上下文信息将匹配代价体转化为深度假设的概率分布,输出为概率体,其每一点的取值为该像素点处在对应深度的概率,代价体正则化是实现精确深度预测的关键。如表 1 所示,本文根据代价体正则化策略以及 网 络 结 构 的

31、不 同 将 所 有 MVS 算 法 分 为 以下 4类。2.1.3.1基于 3D CNN的代价体正则化传统的 MVS 方法采用 3D U-Net 进行代价体 正 则 化 生 成 概 率 体。为 了 提 高 精 度,MVSCRF18在深度图估计阶段第一次引入了条件 随 机 场 优 化(Conditional Random Field,CRF)80正则化,它将深度估计看作一个多标签分类问题,每个深度假设对应一个标签,对象内部区域的邻近像素往往具有相似的标签,而边界附近的像素可能具有显著不同的标签。已有工作证明81,RNN 形式的 CRF 通过显式约束逐像素预测的输出,滤除潜在概率体中的噪声,可以极

32、大地增强性能。并且 CRF 可以集成到模型中实现具有反向传播的端到端训练。在后续工作中,BP-MVSNet70对 MVS 中的 CRF 做了改进,采用了基于信念传播(Belief Propagation,BP)82的可微分 CRF 正则化层,也取得了不错的性能。3D DCN 可以根据输入特征自适应改变感受野以适应局部几何形状,SPGNet71,PatchMatchNet62通过利用 DCN 以自适应方式执行假设传播。LANet34使用 3D ASPP 代替 3D U-Net,使网络有效扩大感受野,以纳入远程上下文,并缓解对象边界丢失问题。Att-MVSNet83引入了一个注意力引导的正则化模块

33、,以自适应地聚合代价体。该模块由多层射线融合模块组成,可以分层聚合和正则化代价体。代价体本质上在深度和空间方向应该都是各向异性的,P-MVSNet66在提出的混合 3D U-Net中利用了两种各向异性卷积在空间和深度方向上进行代价体聚合,充分表 1采用不同代价体正则化策略的 MVS方法的主要特点及存在问题Tab.1Main characteristics and problems of MVS methods with different cost volume regularization strategiesTypeEnd-to-endMulti-stageCNNRNNCoarse-to-

34、fineCoarse-to-fineCharacteristicCost volume regularization using 3D CNNCombining the accuracy of 3D CNN and the efficiency of RNN,greatly reducing memory consumptionRefine by other methods after obtaining the initial depth mapBuild the cost volume over the entire depth range with coarse resolution,a

35、nd calculate the reduced sample range based on the coarse depth mapProblemUsually slow in training and reasoning,with large memory consumptionReduced memory consumption but increased runtimeNeed some prior knowledgePrediction accuracy is highly dependent on the initial depth map.The cost volume char

36、acteristics of different stages are not fully consideredMethod18,70,57,55,7116,47,72,73,41,7411,17,66,49,22,48,34,50,30,75,45,53,64,63,43,7660,61,27,20,62,19,24,54,51,31,67,42,68,77,78,23,79,39,28,32,652449第 31 卷光学 精密工程利用代价体的上下文信息,根据概率体推断深度概率分布。2.1.3.2基于 RNN的代价体正则化在代价体正则化阶段,利用 3D CNN 会消耗大量内存,特别是对于高分

37、辨率图像。一些工作16,41,47用 2D CNN 和 RNN 代替 3D CNN,以减少内存负担。Yao 等人16提出用 2D 门控递归单元(GRU)递归网络沿深度方向顺序正则化代价体。空间上使用 2D CNN,深度方向使用 GRU聚合代价,效率显著提高,但缺少多尺度上下文信 息 的 聚 合。D2HC-RMVSNet47和 AA-RMVSNet41结合 3D CNN 和 RNN 的优点,提出一种混合递归正则化网络 U-LSTM,可以聚合多尺度上下文信息,同时能够高效处理原始大小的代价体。RED-Net72引入循环编码器-解码器(Recurrent Encoder-Decoder,RED)架构

38、来顺序正则化代价体,实现了更高的效率和准确性,同时保持分辨率,有利于大规模的重建。现有的递归方法仅关注深度域中的局部依赖关系,大大限制了沿深度维度获取全局上下文的能力。为解决该问题,Xu 等人73提出了一种非局部递归正则化网络 NR2-Net,设计一个深度注意模块来捕捉非局部深度交互,以封闭的循环方式更新,对不同块之间的全局场景上下文进行建模,捕获沿深度维 度 的 长 期 依 赖 关 系 以 促 进 代 价 体 正 则 化。BH-RMVSNet84采用基于双向混合长期记忆的结构来进行代价体正则化,在性能与 3D CNN 相当的同时节省运行内存。2.1.3.3采用多阶段由粗到精策略的MVS算法利

39、用 RNN 来调整代价体可在一定程度上减少内存消耗,但运行时间较长。为了使存储效率和重建精度之间达到良好的平衡,提出使用由粗到精的结构范式进行重建,在低分辨率特征上进行粗略全局深度范围下的预测,使用粗略深度图自适应地调整深度假设的采样范围,构建高分辨率代价体,逐步回归高质量的深度图。该类方法在 内 存 和 运 行 时 间 上 都 很 高 效19-20,27。Gu 等人19提出在由粗到精的深度推断过程中构建金字塔结构并缩小深度搜索范围进行细粒度预测,可以估计高分辨率深度图,提高重建精度。类似的,Yang 等人20提出用由粗到精的策略推断深度图,并提出一种自适应深度范围确定方法,在像素深度残差上迭

40、代构建新的代价体来进行深度图细化。由粗到精的级联网络分散了网络的复杂性,能够在增加较少计算量的情况下提升深度预测精度,但其重建质量仍受到分辨率和深度假设范围的限制。在粗略深度预测较差的情况下,用事先确定的固定因子缩小深度假设范围可能导致错误预测或者引入冗余。Ma等人67提出一种合理设置深度假设的由粗到精算法,分别针对粗阶段和精阶段提出了极线聚集模块(Epipolar Assembling Module,EAM)和熵细化(Entropy Refining,ER)模块。EAM 模块首先根据原始采样点的分布间隔自适应地插入新采样点,再采用卷积提取插值后代价体的信息,通过最大池化使代价体变回插值前的尺

41、寸。ER 模块通过计算深度图上每个点对应的熵来自适应地确定下一阶段合适的深度假设范围,进一步细化深度预测。2.1.3.4采用端到端由粗到精策略的MVS算法一些端到端的 MVS 算法也采用了由粗到细的策略,通过在预测出初始深度图之后添加一个细化模块来得到精细深度图。Chen 等人17提出的Point-MVSNet首先生成粗深度图,将其转换为点云,迭代预测深度残差,在预定义的局部空间范围内对粗略点云进行迭代细化。类似的,VA-Point MVSNet49根据从预测的点云推断出的 3D几何先验信息和从多视图输入图像动态获取的2D图像信息来估计3D点云流。LA-Net34引入了一个新的损失来监督概率体

42、,约束它的分布合理集中在真实深度处。Fast-MVSNet48对估计出的高分辨率稀疏深度图进行卷积,对局部区域内像素的深度依赖进行编码以加密该深度图,在得到深度图后添加一个高斯-牛顿层作为深度图细化模块,使重建效率大幅度提高。在此基础上,ACINR-MVSNet63对特征提取网络进行改进,设计了一个增强型高斯-牛顿层,明显提高了重建精度。为了降低内存消耗,GBi-MVS Net75将 MVS定义为一个二值搜索问题,每一步通过执行分类来确定真实深度,大大降低深度假设数量,在加速模型训练的同时性能也得到提升。2.1.4深度回归和后处理策略深度回归的目的是从概率体中获取深度图。选择合适的损失函数能够

43、提高重建的准确度,DDR-Net51提出一种新的损失策略,利用学习到2450第 16 期鄢化彪,等:基于深度学习的多视图立体重建方法综述的动态深度范围生成细化深度图,以保持下一阶段范围假设中覆盖的每个像素的真值。MVSNet+57设计了三个损失函数,提出绝对相对损失以使模型专注于估计前景的深度,进一步设计了几何相似性损失和结构相似性损失来正则化 图 像 和 特 征 空 间 中 多 视 图 之 间 的 相 似 性。DRI-MVSNet28提出多阶段深度残差预测模块,使用非均匀深度采样策略来构造假设的深度平面,生成高精度深度图。为了减少高分辨率场景重 建 的 内 存 消 耗 并 保 持 重 建 准

44、 确 度,ADR-MVSNet79提出自适应深度减小模块,使用置信区间来逐渐减小最后两个阶段的深度范围。焦点损失85是目标检测领域中提出的常见解决方案,它 是 针 对 传 统 的 离 散 标 签 定 制 的,TransMVSNet45采用焦点损失来加强监督,可以更好地 处 理 模 糊 预 测 的 问 题。类 似 地,UniMVSNet68采用统一焦点损失能够捕获更多细粒度指标,以重新平衡样本,并合理地处理连续标签。大多数由粗到精的方法通过计算当前预测深度与真实深度之间的残差,迭代细化点云。UCSNet27在三种分辨率下应用了 L1损失。一些方法16,34,41,47,72,86将深度回归任务视

45、为多分类任务,并在概率体和深度图中使用交叉熵损失函数。Ding 等人87提出了基于特征相似性的对比度匹配损失和加权焦点损失,减小不重要区域中低置信度像素的权重。Point-MVSNet17和VA-PointMVS Net49提出 PointFlow 模块将输入深度图细化到更高的分辨率,并提高精度。对于每个点,PointFlow 模块通过在所有视图中观察其相邻点来估计其沿参考相机方向到真实曲面的位移,推动这些点流向目标曲面,迭代细化预测深度图,从而提高时间和内存效率。DDL-MVS88联合估计深度图和边界图,提出边缘深度损失项来定义估计的边缘与真实深度变化之间的均方误差,利用边界图进一步细化深度

46、图。2.2基于无监督学习的 MVS方法基于监督学习的 MVS 方法容易在进行合适的改进后达到较好的重建结果,预测结果可控,优化目标明确,损失函数设计较为简单。目前基于学习的 MVS 方法在一定程度上依赖于训练数据的丰富程度,大多数 MVS 算法依赖于用大规模真实三维数据作为监督以达到更好的重建效果,但是用于训练的真实数据标签(如点云、深度图等)的获取成本较高,并且基于监督学习的模型泛化能力较弱,在其他场景数据集上难以取得较好的重建效果。因此,对基于无监督学习的MVS 方法的研究具有重要价值,在没有真实标签的情况下,研究如何利用数据本身先验信息自监督是方法改进的关键。Knot 等人89提出第一个

47、基于无监督学习的 MVS 框架,利用参考图像与单应性变换后的源图像之间的光度一致性进行监督。光度一致性损失如式(3)所示:LPC=i=2N(Ii-I0)Mi2+(Ii-I0)Mi2Mi1,(3)其中:表示梯度算子,为点积。考虑到光度损失对照明条件和拍摄角度敏感以及多视图之间存在遮挡和光照信息不同的问题,在计算光度损失时融合多个图像对之间的匹配误差图,再将光度一致性损失结合深度平滑损失和结构相似性损失一起作为网络训练的监督信号。光滑度损失表示为:Lsmooth=1Ni=1N(e-1|Iiref|Di|+e-2|2Iiref|2Di|),(4)其中:N 为像素数量,2表示二阶导数,D 为深度。深度

48、平滑损失可促进预测深度图中的平滑度。结构相似性损失表示为:LSSIM=1Ni=1N1-SSIM(Iiref,Iisrc)2Mref.(5)结构相似性损失通过亮度、对比度、结构来测量两个图像之间的相似性。当处理亮度剧烈变化的区域时,结构损失约束可以提高鲁棒性。Dai等人90提出了一种同时预测所有视图深度的对称网络,进一步丰富了损失函数,在实现自监督的同时通过学习视图遮挡掩膜避免遮挡区域的点参加损失计算,提高算法性能。Mallick等人91利用模型不可知元学习92框架来学习自适应特征表示,用于基于视图合成的自监督MVS重建。采用视图合成损失进行自监督学习的前提是一个点在不同视图中具有相同颜色,但这

49、在环境光照条件时刻变化的真实世界中无法实现,因此仅使用光度一致性约束不够准确,需要引入更多的约束来解决纹理模糊问题。Huang 等人932451第 31 卷光学 精密工程在特征提取阶段采用 FPN结构,并结合基于像素和基于特征的损失,像素级考虑光度一致性、结构一致性和深度平滑约束,特征级采用预训练的VGG16网络对中间层提取的特征进行一致性约束。此外,在三维点云中引入新的法向深度一致性来细化初始深度图,以提高深度图的准确性和连续性。Xu 等人94在损失函数中引入语义一致性和数据增强一致性,将预训练的 VGG 网络提取的特征经非负矩阵分解进行多视图间的无监督协同分割。语义一致性损失表示为:LSC=-i=2N1Mi1j=1HWf(S1,j)log(Si,j)Mi,j,(6)其中:Si为变换的分割图,S1为参考分割图转换的真实标签,f(S1,j)=onehot(argmax(S1,j),计算它们之间每像素交叉熵损失作

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服