收藏 分销(赏)

融合注意力的拉普拉斯金字塔单目深度估计.pdf

上传人:自信****多点 文档编号:721124 上传时间:2024-02-22 格式:PDF 页数:11 大小:6.92MB
下载 相关 举报
融合注意力的拉普拉斯金字塔单目深度估计.pdf_第1页
第1页 / 共11页
融合注意力的拉普拉斯金字塔单目深度估计.pdf_第2页
第2页 / 共11页
融合注意力的拉普拉斯金字塔单目深度估计.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 年 8 月 图 学 学 报 August2023第 44 卷 第4期 JOURNAL OF GRAPHICS Vol.44No.4 收稿日期:2022-11-22;定稿日期:2023-03-27 Received:22 November,2022;Finalized:27 March,2023 基金项目:国家自然科学基金项目(61863037);云南省“万人计划”青年拔尖人才专项 Foundation items:National Natural Science Foundation of China(61863037);Ten Thousand Talent Plans for Y

2、oung Top-Notch Talents of Yunnan Province 第一作者:余伟群(1998),男,硕士研究生。研究方向为计算机视觉、图像处理。E-mail: First author:YU Wei-qun(1998),master student.His main research interests cover computer vision,image processing.E-mail: 通信作者:张亚萍(1979),女,教授,博士。主要研究方向为计算机视觉、计算机图形学。E-mail: Corresponding author:ZHANG Ya-ping(1979)

3、,professor,Ph.D.Her main research interests cover computer vision,computer graphic.E-mail: 融合注意力的拉普拉斯金字塔单目深度估计 余伟群,刘佳涛,张亚萍(云南师范大学信息学院,云南 昆明 650500)摘要:随着深度神经网络的迅速发展,基于深度学习的单目深度估计研究集中于通过编码器-解码器结构回归深度,并取得了重大成果。针对在大多数传统方法中,解码过程通常重复简单的上采样操作,存在无法充分利用编码器的特性进行单目深度估计的问题,提出一种结合注意力机制的致密特征解码结构,以单张 RGB图像作为输入,将编码

4、器各层级的特征图融合到拉普拉斯金字塔分支中,加强特征融合的深度和广度;在解码器中引入注意力机制,进一步提高了深度估计精度;结合数据损失和结构相似性损失,提高模型训练的稳定性及收敛速度,降低模型的训练代价。实验结果表明,在 KITTI 数据集上与现有的模型相比,均方根误差相较于先进的算法 LapDepth 降低了 4.8%,训练代价降低了 36%,深度估计精度和收敛速度均有较显著地提升。关键词:深度学习;单目深度估计;注意力机制;拉普拉斯金字塔;拉普拉斯残差 中图分类号:TP 391 DOI:10.11996/JG.j.2095-302X.2023040728 文献标识码:A 文 章 编 号:2

5、095-302X(2023)04-0728-11 Monocular depth estimation based on Laplacian pyramid with attention fusion YU Wei-qun,LIU Jia-tao,ZHANG Ya-ping(School of Information Science and Technology,Yunnan Normal University,Kunming Yunnan 650500,China)Abstract:With the rapid development of deep neural networks,rese

6、arch on deep learning-based monocular depth estimation has centered on regressing depth through encoder-decoder structures and has yielded significant results.However,most traditional methods typically entail the repetition of simple upsampling operations during the decoding process,which fail to ta

7、ke full advantage of the characteristics of the encoder for monocular depth estimation.To address this problem,this study proposed a dense feature decoding structure combined with an attention mechanism.Utilizing a single RGB image as input,the feature map of each level of the encoder was fused into

8、 the branch of the Laplace pyramid to heighten the utilization of the feature map at each level.Attention mechanisms were introduced into the decoder to further enhance depth estimation.Finally,data loss and structural similarity loss were combined to reinforce the stability and convergence speed of

9、 model training and diminish the training cost of the model.The experimental results demonstrated that compared with the existing model on the KITTI dataset,the root mean square error decreased by 4.8%and the training cost was reduced by 36%relative to the advanced algorithm LapDepth,with a more sig

10、nificant improvement in depth estimation accuracy and convergence speed.第 4 期 余伟群,等:融合注意力的拉普拉斯金字塔单目深度估计 729 1 Keywords:deep learning;monocular depth estimation;attention mechanism;Laplacian pyramid;Laplacian residuals 基于图像的深度估计是机器人技术和自动驾驶等领域的关键挑战之一。近年来,随着大规模数据集的出现和硬件算力的迅速提升,使得深度学习进行单目深度估计成为研究热点。基于深度

11、学习的单目深度估计可以分为有监督和自监督。有监督单目深度估计需要真实深度数据作为监督信号,而自监督则没有真实深度数据可用,通常以连续帧之间的约束来指导深度模型的训练。在自监督训练中,GODARD 等1利用对极几何约束,通过使用图像重建损失训练网络生成视差图像,从而避免了场景真实深度标注数据难以获取的问题。蒲正东等2通过非相邻帧图像之间的一致性,设计了一种有效的损失函数,并使用可靠性掩膜来消除动点和遮挡点的干扰,在TensorFlow的框架下获得不错的效果。赵霖等3设计了一种局部注意力机制来融合高分辨率特征图的局部特征,以提升深度估计的准确性,同时提出一种迭代调优的位姿估计结构,利用残差优化的方

12、式降低位姿估计难度,提升位姿估计的准确性进而提升深度估计网络的性能。但自监督学习方法存在缺乏大规模和多样化数据集的问题,在深度估计时其精确度始终有限,所以对于需要高精深度信息的应用场景,使用较多且更可靠的是有监督学习方法。在有监督学习方法中,各种基于编码器-解码器结构的深度估计方法取得了不错的效果。SONG 等4认为大多数解码过程重复简单的上采样操作,无法充分利用编码良好的底层特征进行单目深度估计,所以在解码器中加入拉普拉斯算子,使得在上采样过程中减少细粒度信息的丢失。FU 等5针对一些方法忽略了深度间固有的有序关系的问题,将回归问题转为分类问题,在模型中引入排序机制来帮助更准确地估计图像的深

13、度信息,并利用序数回归估计深度边界,其特征由空洞卷积池化金字塔(atrous spatiol pyramid pooling,ASPP)密 集 提 取6。张 涛 等7采 用Transformer8网络对解码器的输出特征进行全局分析,Transformer 网络中的多头注意力机制从解码器输出的深层特征中估计深度信息,提高深度估计网络对多尺度特征的提取能力进而提高深度图的精准度。虽然有监督单目深度估计的可靠性更高,但通常需要大量的真实深度标注数据,而数据标注是一项开销巨大的工程。Google Mind 团队将注意力机制应用于图像分类的循环神经网络(recurrent neural network,

14、RNN)模型中,指出注意力机制增强了主任务的性能并提高了神经网络的可解释性,因此注意力机制被广泛应用在基于 RNN 和卷积神经网络(convocational neural network,CNN)等神经网络模型中。WOO等9通过直接建立输入与输出之间的依赖关系,提出一种结合通道和空间的轻量型注意力机制的卷积注意力模块(convolutional block attention module,CBAN),使得并行化程度增强,同时提高运行速度。HOU 等10通过将位置信息嵌入到通道注意力中提出了一种新颖的移动网络注意力机制的协调注意力(coordinate attention,CA)。ZHANG

15、 和YANG 等11在空间注意力与通道注意力的基础上,引入特征分组与通道置换模块,提出一种超轻量型的注意力机制的置换注意力(shuffle attention,SA)。近年来,随着 Transformer 结构在各个领域的广泛应用,自注意力被引入到深度估计任务中并取得了良好的效果。自注意力机制不采用 RNN和长短期记忆网络的顺序结构,使得模型可以并行化训练,且拥有全局信息,但模型具有较高的复杂度,且需要海量的数据进行训练。通常,神经网络模型随着网络层数的叠加性能会有所提升,但是模型的训练代价也会越来越高,同时图像的卷积操作和下采样过程也会造成细节信息丢失。文献4提出的 Lapdepth作为目前

16、已知效果最好的室外深度估计模型之一,其通过在解码器中加入拉普拉斯算子以尽量减少细粒度信息的丢失。但该方法并未控制不同尺度以及不同层级特征对最终结果的贡献,这必然会引入冗余特征降低模型的性能。为了解决这些问题,本文提出了一种融合注意力机制的拉普拉斯金字塔单目深度估计网络,该网络继承了拉普拉斯金字塔的优点,对编码器各层级的特征图上采样,在控制模型复杂度的前提下融合注意力机制,获取的特征图作为解码器上采样时细节损失的补偿;在网络中加入包含空间注意力和通道注意力的混合注意力机制,达到了最先进的性能表现。通过组合数据损失和结构相似性损失,提高模型训练的稳定性及收敛速度,同时降低训练代价。730 图像处理

17、与计算机视觉 2023 年 1 网络架构 本文针对卷积操作和下采样过程会造成细节信息丢失的问题,在 Lapdepth 的基础上做出改进和优化。以单张RGB 图像作为输入,采用ResNext10112作为编码器提取特征,通过 ResNext101 深度叠加的卷积块对图像特征进行高度压缩,获得的特征空间是原空间的 1/16,其中蕴含了丰富的深度信息;在使用密集ASPP获取上下文信息时,网络融合了注意力机制用以弥补细粒度信息的丢失。解码器由多个拉普拉斯金字塔分支组成,如图1所示。Layer4为拉普拉斯金字塔最高层,其任务是恢复深度图的全局布局,其他分支通过编码特征结合拉普拉斯残差(L1到 L4)生成

18、深度残差(R1到 R4),其中拉普拉斯残差的结构如图2所示。为了加强对物体边缘信息的捕捉,在生成深度残差的过程中引入注意力机制。图 1 总体网络架构 Fig.1 Overall network architecture 图 2 拉普拉斯残差 Lk Fig.2 Laplace residual Lk 由图 1 所示,本文结构类似特征金字塔网络(feature pyramid network,FPN)与像素聚合网络(path aggregation network,PAN)结合的致密特征解码结构,学习 DenseNet13的致密特征提取方式,让编码器各层级特征图参与到解码器深度残差的生成,其结构如

19、图 3 所示。1.1 编码器 ResNext101 在 ImageNet14分类任务上优于ResNet101/152,ResNet20015,Inception-v3 和Inception-ResNet-v216,且较 Inception 模型在结构 图 3 致密特征解码结构 Fig.3 Dense feature decoding structure 上更为简单。此外,ResNext101 在分类任务上能够实现比ResNet200更高的精度,且参数量仅为其50%。因此,本文选择 ResNext101 作为深度估计网络的编码器。1.2 解码器 在解码过程中,不同的尺度及通道特征对最终结果的贡献

20、不同,本文通过引入注意力机制以引导模型选择,从而更好地恢复深度图的局部细节以及全局特征。具体地说,在深度恢复的过程中加入SA 和 CA,利用各尺度的编码特征引导深度估计,适当地强调各尺度编码特征的深度特性,并且保留更多的局部信息。1.2.1 注意力机制 在计算机视觉研究中有 2 种广泛使用的注意力机制:空间注意力和通道注意力,其分别用于捕获像素级成对关系和通道依赖性,将其融合在一起 第 4 期 余伟群,等:融合注意力的拉普拉斯金字塔单目深度估计 731 通常会获得更好的性能。本文增加了 SA 模块,相比其他混合注意力,SA 不仅有效控制了计算量,还提升了网络精度,其结构如图 4 所示。该模块采

21、用 Shuffle 单元有效地结合了 2 种类型的注意力机制。具体而言,SA 首先将特征分组为多个子特征,然后对每一个子特征按通道划分为2 个部分 Xk1和 Xk2,Xk1构建通道注意力,Xk2构建空间注意力。图 4 SA 结构图11 Fig.4 SA structure diagram11 通道注意力部分,如图 4 所示,首先使用全局平均池化获得全局信息,生成在通道维度上的全局信息统计,即 11111(,)(),HWkijgpkFxijWxijH(1)然后使用 Sigmoid 激活函数,得到各个通道对应的权重,通道注意力的最终输出为 11121(,)kgpkkXW Fxi jbX (2)空间

22、注意力部分,首先对 Xk2使用群组归一化(group normalization,GN)操作获取空间特征,然后使用 Sigmoid 激活函数,得到单个通道上逐个像素的权重,即 21222()kkkXWGN XbX (3)将空间和通道2个分支的输出在通道维度上连接之后,网络采用“Channel shuffle”实现子特征之间的信息通信,增强网络对全局信息的捕获能力。网络解码器生成深度残差时引入了CA模块,相对于兼顾通道与空间信息的SA,CA是一种更加注重空间信息的注意力机制,其在确保沿一个空间方向捕获远程依赖关系的同时,沿另一空间方向保留精确的位置信息,其结构如图5所示。全局平均池化通常用于通道

23、注意力的全局编码,但其将全局空间信息压缩到通道描述中,难以保存位置信息。CA能够获取图像宽度和高度上的注意力并对精确的位置信息进行编码,具体而言,CA将输入的特征图在宽度和高度2个方向上 图 5 CA 结构图10 Fig.5 CA structure diagram10 分别进行全局平均池化,以获得2个方向上的特征图,即 01()(,)hcci WZhx h iW(4)01()(,)wccj HZwxj wH(5)沿2个空间方向聚合特征,可以得到一对方向感知的特征图。这2种类型的特征图能够在捕捉某一空间方向的长期依赖关系的同时保留另一空间方向的精确位置信息,从而帮助网络更准确地定位局部特征,提

24、高解码器对细节特征的恢复。1.2.2 残差结构 本文引入了3种残差:拉普拉斯残差Lk、对编 732 图像处理与计算机视觉 2023 年 码器输出的特征上采样并融合的残差Xk以及深度残差Rk。Lk的作用在于引导编码特征生成深度残差,其结构如图2所示。图中Ik为输入图像下采样的结果,UP()为上采样操作。拉普拉斯残差Lk是指当前尺度下的特征图Ik与更小尺度下的特征图Ik+1上采样后的差值,并以此引导特征图恢复局部细节。Xk的作用在于强调全局细节,使得编码特征参与深度恢复时能保留更多的全局信息,即 1(,(),1,2,3kkkXconv layer UP CA layerk(6)其中,layerk为

25、编码器第k层输出的特征;CA()为CA模块。对于第k层金字塔的深度残差Rk,其计算过程如下:首先,将特征Yk,Lk与Rk+1上采样后的Rk+1进行融合,并送入堆叠的卷积块中,最后与相应的拉普拉斯残差Lk再次融合,即 1,1,2,3,4kkkkkkRBY LRLk(7)(),(),2,3,4,5kkkRconv UP RUP CA Rk (8)112112111,1,2,3,4kkkkkkkkkkconv UP YLRkYconvUP YLRXkconvUP YXk(9)其中,为拼接融合操作;Bk由堆叠卷积块组成,生成与Lk具有相同分辨率的单通道输出。值得注意的是,Lk引导解码过程精确恢复各种尺

26、度空间的局部细节,从而在不模糊伪影的情况下解释深度边界。最后逐层恢复重建深度图,即 1(),1,2,3,4,5kkkkRUP DkDRk(10)其中,D5为包含了全局特征的深度图,最终深度图为D1。详细结构见表1。表 1 网络详细结构 Table 1 Detailed structure of the network Encoder Block Filter Stride Channel In Out Input layer1 77 2 3/64 S S/2 Input RGB Maxpool 33 2 64/64 S/2 S/4 F(layer1)layer2 33 2 64/256 S/4

27、 S/4 F(Maxpool)layer3 33 2 256/512 S/8 S/8 F(layer2)layer4 33 2 512/1024 S/16 S/16 F(layer3)Decoder Block Filter size Up Channel In Out Input Lev reduction 11 1 1024/512 S/16 S/16 F(layer4)-ASPP 33 1 512/512 S/16 S/16 F(reduction)-sa 11 1 512/512 S/16 S/16 F(ASPP)-dec5 33 1 512/1 S/16 S/16 F(sa)5th

28、dec4up 33 2 512/256 S/16 S/8 F(sa)4th dec4ca 11 2 1024/512 S/16 S/8 F(UP(CA(layer4)layer3)4th dec4reduc 11 1 768/252 S/8 S/8 F(dec4cadec4up)4th dec4upr 33 2 2/1 S/16 S/8 F(UP(R5)UP(CA(R5)4th dec4bneck 33 1 256/256 S/8 S/8 F(dec4reduc dec4upr L4)4th dec4 33 1 256/1 S/8 S/8 F(dec4bneck)4th dec3up 33 2

29、 256/128 S/8 S/4 F(dec4bneck)3rd dec3ca 11 2 512/128 S/8 S/4 F(UP(CA(layer3)layer2)3rd dec3reduc 11 1 384/124 S/4 S/4 F(dec3cadec3up)3rd dec3upr 33 2 2/1 S/8 S/4 F(UP(R4)UP(CA(R4)3rd dec3bneck 33 1 128/128 S/4 S/4 F(dec3reduc dec3upr L3)3rd dec3 33 1 128/1 S/4 S/4 F(dec3bneck)3rd dec2up 33 2 128/64

30、S/4 S/2 F(dec3bneck)2nd dec2ca 11 2 128/64 S/4 S/2 F(UP(CA(layer2)Maxpool)2nd dec2reduc 11 1 128/60 S/2 S/2 F(dec2cadec2up)2nd dec2upr 33 2 2/1 S/4 S/2 F(UP(R3)UP(CA(R3)2nd dec2bneck 33 1 64/64 S/2 S/2 F(dec2reduc dec2upr L2)2nd dec2 33 1 64/1 S/2 S/2 F(dec2bneck)2nd dec1up 33 2 64/60 S/2 S F(dec2bn

31、eck)1st dec1upr 33 2 2/1 S/2 S F(UP(R2)UP(CA(R2)1st dec1bneck 33 1 64/64 S S F(dec1reduc dec1upr L1)1st dec1 33 1 64/1 S S F(dec1bneck)1st 注:Up:上采样因子;Channel:每个块的输入和输出通道数;In和Out:输入和输出的空间分辨率;Input:每个块的输入;Lev:拉普拉斯金字塔的分支序号;:拼接操作;UP():上采样操作(2 倍);S:原图像的空间分辨率;F():对应模块的输出 第 4 期 余伟群,等:融合注意力的拉普拉斯金字塔单目深度估计 73

32、3 2 实验 2.1 损失函数 本文网络的可训练参数使用损失函数Lt进行优化,该损失函数由数据损失Ld和多尺度结构相似性损失Ls组成。(1)数据损失Ld。由于3D传感器的限制,近距离采集的深度数据密集,而远处较为稀疏。为了缓解不平衡问题,本文采用文献17中引入的损失函数的平方根作为数据损失,其计算预测深度值与真值的对数空间差异,即 2*221(,)NvNvdiii vi vLy yddnn(11)其中,y和y*分别为预测深度图和真实深度图;di=log10yilog10y*i;V为深度图中的一组有效像素;Nv为深度图中有效像素的总数。与文献17相同,平衡因子设置为0.85。(2)多尺度结构相似

33、损失Ls。MS-SSIM损失函数是基于多尺度深度图,即图片按照一定规则由大到小缩放的结构相似性(structure similarity index measure,SSIM)损失函数,相当于考虑了图像的分辨率且保留了图像中的高频信息18,即 1(,)sLMSSSIM y y(12)将损失函数Lt定义为 (,)(,),epoch10(,),otherwisedstdLy yL y yLLy y(13)其中,和分别为 Ld和 Ls的平衡因子,通过后续的消融实验分别设置为 0.6 和 0.4。由于真实值的稀疏性,在训练初期使用数据损失时,真实值的稀疏干扰了数据损失的收敛。为了缓解这一问题,在使用数

34、据损失正确恢复深度图同时,以一定比例计算结构相似性损失 Ls。实验证明本文设置的损失函数形式能有效地提高模型训练的稳定性及收敛速度。2.2 数据集 KITTI19数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合构建,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。KITTI 包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多包含 15 辆车和30 个行人,还有各种程度的遮挡与截断。整个数据集由 389 对立体图像和光流图,39.2 km 视觉测距序列以及超过 200 000 张 3D 标注物体的图像组成,采集图像的分辨率为 1242375 像素。在性能比较时,采

35、用了文献17引入的测试集划分策略。根据该方案,测试集包含从 29 个场景中选择的 697 幅图像,训练集包含来自其余 32 个场景的 23 488 幅图像。如 KITTI 数据集的指南中所述,预测输出的最大视域(Cap)在测试阶段限制在 80 m。此外采用了文献17定义的裁切边界方法,将原始图像和水平翻转后的图像作为模型的输入,取二图预测深度的平均值作为模型最终输出并进行评估。2.3 实验设置 本文使用 PyTorch20框架实现了所提的网络结构,并在 NVIDIA GeForce RTX 3090 上训练了该模型。训练使用 AdamW21作为优化器,编码器权重参数衰减率为 0.01,解码器部

36、分权重参数衰减率为0,初始学习速率为 0.000 1,epoch 总数为 15。随着训练进行,学习速率随公式 lr=(1e41e5)(1n_iter/tatal_iter)0.2+1e5变化,其中_n iter为当前迭代次数,_totaliter为总迭代次数。每一次迭代的批量大小设置为 4,每一个 epoch 训练时长大约为 80 min。本文模型共包含了 74.14 M 个参数,其中 ResNext101 编码器和解码器分别包含 58.0 M 和16.2 M 个参数。2.4 评价指标 对于图像深度估计,文献17引用了 7 个标准的评价指标,本文对其 7 个指标与当前最先进的方法进行了精确度与

37、误差的比较,这些指标包括:阈 值 准 确 度(i,i=1,2,3)、平 均 相 对 误 差(absoluter relative error,abs Rel)、相对均方误差(squared relative reeor,Sq Rel)、对数均方根误差(root mean squared logarithmic error,RMSElog)、均方根误差(root mean squared error,RMSE)。各指标的计算为 max,ppippyythryy(14)1 nppppyyabs Relny(15)21 nppppyySq Relny(16)21()npppRMSEyyn(17)2l

38、og10101log()log()npppRMSEyyn(18)734 图像处理与计算机视觉 2023 年 其中,yp和y*p分别为真实深度图y和模型预测深度图y*中像素点p的深度值;n为深度图的像素总数。式(14)中,当i=1,2,3时,thr分别为1.25,1.252,1.253。3 实验结果与分析 3.1 定性结果 图6展现了本文模型对某些场景下的单张RGB图像的深度预测结果,并与文献4、文献5和文献18中提供的模型预测结果进行了对比。通过观察不难发现,本文的模型能够较为准确地预测图像的深度信息,且在室外复杂场景下有比较好的预测结果,主要表现在对于图像中不重要信息的有效抑制和重要细节信息

39、的有效保留上,如图6中标识区域。由于在解码过程加入注意力机制,恢复深度信息的同时减少了细粒度信息的丢失,所以针对物体轮廓特征保留效果更加突出。针对不同的Cap,可发现得到的结果有所差距,如图7所示。当Cap为50 m时,可发现近距离局部特征细节得到了很好地保留,如虚线部分所示;当Cap为80 m时更远处的局部细节会被更有效地保留,而距离较近的不重要局部细节会被相应地抑制。图 6 多种方法的预测深度图结果对比(a)输入的 RGB 图像;(b)真实深度图;(c)文献5;(d)文献18;(e)文献4;(f)本文方法)Fig.6 Comparison of predicted depth maps f

40、or multiple methods(a)The input RGB image;(b)The ground truth;(c)Literature 5;(d)Literature 18;(e)Literature 4;(f)Ours)(a)(b)(c)(d)(e)图 7 多 cap 深度图对比(a)输入 RGB 图像;(b)文献4(50 m);(c)文献4(80 m);(d)本文 Cap 为 50 m;(e)本文 Cap 为 80 m)Fig.7 Comparison of multi-cap depth maps(a)Input rgb image;(b)Literature 4(50

41、m);(c)Literature 4(80 m);(d)Depth map with Cap of 50 m in this paper;(e)Depth map with Cap of 80 m in this paper)3.2 定量结果 本文将RMSE测试值最小的模型参数作为训练的最优结果,在训练了8个epoch后达到了最优,对比文献4的方法虽然参数量和计算量有小幅度地增加,但总迭代次数下降了36%,有效地降低了模型的训练代价。表2展示了各种模型在KITTI数据集上的性能对比,表中其他方法的结果均来自于相应的原论文,最佳结果以粗体显示,表中使用文献17针对不同Cap的测试分割。通过比较,

42、本文方法在各项指标上均有小幅度地提升,特别是针对RMSE提升最大。当采用Cap=80 m进行训练时,本文方法捕获的全局特征更加准确,对模型的训练更加有效,在RMSE上比文献4的方法减少了约4.8%;当Cap=50 m时,本文方法对近端特征更敏感,对远端的特征易丢失,但在RMSE上仍比文献4的方法降低了约3.4%。第 4 期 余伟群,等:融合注意力的拉普拉斯金字塔单目深度估计 735 表 2 与其他模型预测结果的定量比较 Table 2 Quantitative comparison of prediction results with other models Method Higher va

43、lue is better Lower value is better 1.25 1.252 1.253 Abs Rel Sq Rel RMSE RMSE log Total_iter(M)Cap=80 m 文献1 0.916 0.980 0.994 0.085 0.584 3.938 0.135-文献5 0.932 0.984 0.994 0.072 0.307 2.727 0.120-文献18 0.950 0.993 0.999 0.064 0.254 2.815 0.100-文献4 0.962 0.994 0.999 0.059 0.212 2.446 0.091 0.734 Ours

44、0.963 0.995 0.999 0.058 0.199 2.328 0.088 0.470 Cap=50 m 文献1 0.861 0.949 0.976 0.114 0.898 4.935 0.206-文献5 0.936 0.985 0.995 0.071 0.268 2.271 0.116-文献18 0.959 0.994 0.999 0.060 0.182 2.005 0.092-文献4 0.967 0.995 0.999 0.056 0.161 1.830 0.086 0.734 Ours 0.967 0.995 0.999 0.056 0.156 1.768 0.084 0.470

45、 注:加粗数据为最优值 3.3 消融实验 3.3.1 编码器模块 近年来神经网络发展相当迅速,本文采用几种常见的网络作为特征提取的编码器,分别为InceptionV316,ResNet10115,Vgg1922,DenseNet16123和ResNext10112,对比结果见表3。由表可见,选用ResNext101作为编码器提取特征效果更加出色。3.3.2 解码器模块 解码器基于Lapdepth的基础解码网络结构,本文对其在深度细节恢复时进行改进。首先将编码器各层特征进行上采样并与上一层融合,同时加入CA注意力,作为引导深度图重建的中间量。现有的注意力机制对通道的处理一般都采用最大池化或平均池

46、化,存在丢失部分空间信息的问题,因此如何更好地使用注意力机制尤为关键。为了尽量控制计算开销,本文选择CA参与深度图重建,并对其插入位置进行实验对比,如图8所示。图9为在拉普拉斯金字塔末端针对深度图Di或深度残差Ri应用CA注意力,其中图9(a)表示深 表 3 各种编码器对比实验结果(Cap=80 m)Table 3 Comparison of experimental results of various encoders(Cap=80 m)Method Param(M)Flops(B)Higher value is better Lower value is better 1.25 1.25

47、2 1.253Abs Rel Sq Rel RMSE RMSE log InceptionV312 18.13 30.25 0.936 0.990 0.997 0.074 0.302 2.922 0.114 Resnet10111 44.11 98.60 0.960 0.993 0.999 0.063 0.203 2.424 0.095 Vgg1918 14.75 104.30 0.959 0.994 0.999 0.060 0.202 2.361 0.092 DenseNet16119 34.19 104.59 0.960 0.995 0.999 0.059 0.202 2.374 0.09

48、0 ResNext1019 74.14 134.76 0.963 0.995 0.999 0.058 0.199 2.328 0.088 注:加粗数据为最优值 图 8 CA 注意力机制位置的消融对比实验(a)Li+1输入 CA 后上采样与 Li融合;(b)上采样的 Li+1输入 CA 后与 Li融合;(c)Li输入 CA 后与上采样的 Li+1融合;(d)上采样的 Li+1与 Li融合后输入 CA;(e)上采样的 Li+1与 Li分别输入 CA 后融合)Fig.8 Ablation study on the location of CA attention mechanism(a)Upsamp

49、ling after Li+1 input to CA,and fusing it with Li;(b)Upsampling Li+1 and inputting it to CA,then fusing it with Li;(c)Upsampling Li+1 and fusing it with Li input to CA;(d)Upsampling Li+1 and fusing it with Li,then feeding them to CA;(e)Upsampling Li+1 and inputting it to CA,then fusing it with Li in

50、put to CA)736 图像处理与计算机视觉 2023 年 图 9 在深度图和深度残差中应用 CA 注意力的 消融对比实验(a)CA 注意力应用于深度图 Di;(b)CA 注意力应用于深度残差 Ri)Fig.9 Ablation study on CA attention in depth maps and depth residuals(a)CA attention applied to the depth map Di;(b)CA attention applied to depth residual Ri)度图Di+1上采样,同时将其通过CA后上采样,然后将两者融合为Di+1,最后与

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      联系我们       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号  |  icp.png浙ICP备2021020529号-1 浙B2-2024(办理中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服