收藏 分销(赏)

基于空洞卷积与注意力模块的立体匹配算法.pdf

上传人:自信****多点 文档编号:649432 上传时间:2024-01-23 格式:PDF 页数:9 大小:2.10MB
下载 相关 举报
基于空洞卷积与注意力模块的立体匹配算法.pdf_第1页
第1页 / 共9页
基于空洞卷积与注意力模块的立体匹配算法.pdf_第2页
第2页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 49卷 第 8期2023年 8月Computer Engineering 计算机工程基于空洞卷积与注意力模块的立体匹配算法刘志浩,孟凡云,王金鹤,张楠(青岛理工大学 信息与控制工程学院,山东 青岛 266520)摘要:基于卷积神经网络的立体匹配算法大多需要较大的感受野,但多数算法在扩大感受野的同时参数量也容易剧增,导致算法对训练数据的规模要求较高。提出一种基于空洞卷积和注意力模块的立体匹配算法,采用空洞卷积模块,将残差结构和空洞卷积相结合,以在较少参数量的情况下扩大网络的感受野。使用注意力模块,通过不同层次的卷积整合多层次的信息,增加所提取信息的完整性。采用空间金字塔池化模块,通过帯权的金

2、字塔池化扩大模型的感受野,并赋予不同层次信息不同的重要性程度。实验结果表明,在相同数据集和训练次数的情况下,所提算法相对于 DispNetC等其他算法具有较快的收敛速度,且结构简单,参数量较少,适用于小样本数据。关键词:立体匹配;小样本数据;空洞卷积;注意力模块;金字塔池化开放科学(资源服务)标志码(OSID):源代码链接:https:/ J.计算机工程,2023,49(8):223-231.英文引用格式:LIU Z H,MENG F Y,WANG J H,et al.Stereo matching algorithm based on atrous convolution and atten

3、tion module J.Computer Engineering,2023,49(8):223-231.Stereo Matching Algorithm Based on Atrous Convolution and Attention ModuleLIU Zhihao,MENG Fanyun,WANG Jinhe,ZHANG Nan(School of Information and Control Engineering,Qingdao University of Technology,Qingdao 266520,Shandong,China)【Abstract】Most of t

4、he stereo matching algorithms based on convolutional neural networks require a large receptive field.However,the number of parameters in most algorithms is easy to increase when the receptive field is enlarged,which leads to high requirements on the scale of training data.A stereo matching algorithm

5、,based on atrous convolution and attention module,is proposed.An atrous convolution module is used to combine residual structure and atrous convolution to enlarge the receptive field of the network with fewer parameters.The attention module is used to integrate multiple levels of information via dif

6、ferent levels of convolution to increase the integrity of the extracted information.The spatial pyramid pool module is used to enlarge the receptive field of the model through the pyramid pool with the right,and different levels of information have different importance.The experimental results show

7、that the proposed algorithm has a faster convergence speed than DispNetC and other algorithms with the same data set and training times.Moreover,it has a simple structure,few parameters,and is suitable for small sample data.【Key words】stereo matching;small samples data;atrous convolution;attention m

8、odule;pyramid poolingDOI:10.19678/j.issn.1000-3428.00656280概述 立体匹配是计算机视觉领域的一个基本问题,在物体跟踪、三维重构、图像分割等领域应用广泛。近年来,深度学习领域发展迅速,特别是卷积神经网络的发展使立体匹配问题得到了很好的解决。传统的立体匹配方法大致可以分为代价计算、代价聚合、视差计算和视差细化 4个步骤1。传统方法经常采用滑动窗口的方式进行匹配,得到对应点,然后利用左右一致性、遮挡、连续性等关系设置约束来调整视差值。然而,传统的立体匹配方法存在一定的局限性,无法人为地设计出良好的约束条件使算法的性能受到一定限制。随着深度学习

9、的不断发展,将卷积神经网络与立体匹配相结合取得了较好的效果。卷积神经网络最初被用于匹配代价计算,文献 2-3 通过权重共享网络进行特征提取,同时计基金项目:山东省自然科学基金(ZR2019BA014)。作者简介:刘志浩(1997),男,硕士研究生,主研方向为立体匹配;孟凡云(通信作者),讲师、博士;王金鹤,教授、博士;张 楠,讲师。收稿日期:2022-08-30 修回日期:2022-10-14 Email:图形图像处理文章编号:1000-3428(2023)08-0223-09 文献标志码:A 中图分类号:TP391.412023年 8月 15日Computer Engineering 计算机

10、工程算匹配代价,并通过全连接层计算左右图片中提取特征的相似度。文献 4 通过点积的方式计算特征相似度,代替之前的全连接层,提高了算法的运行效率。近年来这类方法从各个角度不断被改进,如加强算法稳定性5-6、加入语义信息7、提升算法效率8等。但这类方法仍然需要复杂的后处理阶段,需要人工设计方法对异常区域、异常值进行处理,所以算法性能有待提高。为减少人工的参与,文献 1 提出一种端到端的立体匹配模型,将立体匹配的整个过程融入到网络结构中,去除了人工的参与。这种模型采用“编码器-解码器”结构,同时制作一个大型合成数据集用于网络模型的训练。随后,学者基于大型数据集从各 个 角 度 提 升 算 法 的 性

11、 能。文 献 9-10使 用 了3DCNN 网络,在特征提取之后能够更加直观地对比图像的信息,从更多角度整合信息,从而达到更好的效果;文献 11 通过设计空间金字塔池化扩大了网络的感受野,提升了整个网络的性能;文献 12将注意力机制加入立体匹配网络中;文献 13-14 使用空洞卷积来扩大网络感受野;文献 15 通过优化残差的方式侧面完善视差图,同时加入了较深层次的特征信息,提高了算法的精度;文献 16-17 对不同分辨率层级的图像分别进行处理,之后再将得到的结果相互融合;文献 18 提出一种新的代价量和自适应的匹配方法,可以应用于大多数网络中;文献 19 通过设计新的搜索方式提升了算法的收敛速

12、度和精度;文献 20-22 通过引入局部特征信息、边缘信息和语义信息获得更加精确的视差图。这些算法大多依赖于大型数据集的预训练模型,需要事先用大型数据集训练模型,然后再对训练过的模型进行微调,无法直接应用于小样本数据。这是因为这些算法大多使用 3DCNN,模型复杂且参数量较多,导致模型需要较大的数据集才能达到较好的效果。本文提出一种基于小样本数据的轻量级立体匹配算法,引入空洞卷积和注意力机制,采用“编码器-解码器”逐步恢复视差图。为了减少参数量,本文不采用 3D 卷积,通过使用普通的卷积层和一些功能性结构提升算法的性能,使算法能够适应小样本数据,降低算法运行时对硬件的要求。1网络结构 1.1整

13、体结构本文提出一种端到端的的网络结构来预测视差图,其 结 构 主 要 包 含 特 征 提 取 模 块(Feature Extraction Module,FEM)、初始视差模块(Disparity Initialization Module,DIM)和 视 差 细 化 模 块(Disparity Refinement Module,DRM)3 个 模 块。FEM 模块的作用是提取左右图像的特征,并计算匹配代价;DIM 模块的作用是将 FEM 模块提取的特征进行处理,得到初始视差图;DRM 模块的作用是对初始视差图进行进一步的优化,通过优化残差侧面完善视差图。本文立体匹配算法的架构如图 1 所示

14、。空 洞 卷 积 模 块(Atrous Convolution Module,ACM)是本文提出的一种功能性结构,主要作用是扩大网络的感受野。本文算法以双目图像为输入,预测视差图的基本流程如下:1)以双目图像为输入,使用权值共享的 FEM 进行学习,通过空洞卷积模块扩大网络感受野,提取更多的信息;2)采用“编码器-解码器”结构逐步还原视差图,使用注意力模块整合多层次信息,得到初始视差图;3)通过初始视差图和右图像得到重构图,将重构图和左图像对比得到重构误差图,使用 DRM 对重构误差图进行学习,最后将重构误差图和初始视差图进行整合。接下来将从 4 个部分详细介绍本文算法,包括空洞卷积模块、特征

15、提取模块、初始视差模块和视差细化模块。图 1本文立体匹配算法的架构Fig.1Architecture of stereo matching algorithm in this paper224第 49卷 第 8期刘志浩,孟凡云,王金鹤,等:基于空洞卷积与注意力模块的立体匹配算法1.2空洞卷积模块立体匹配存在弱纹理、重复、透明等问题,往往需要较大的感受野,而扩大感受野一般的方式是采用较大的卷积核,更深的网络层数。此外,使用空洞卷积也是一种扩大感受野的方式。但是,空洞卷积本身存在一定的问题。首先,空洞卷积会导致局部信息缺失,由于空洞卷积的结果是通过对上一卷积层独立计算得到的,相互之间没有依赖关系,

16、所以该层的卷积结果之间没有相关性,丢失了局部依赖关系;其次,单个空洞卷积的结果自身缺乏连续性,空洞卷积本身提取信息存在一定的间隔,随着膨胀因子的增大,得到信息的连续性减小,从而导致获得信息的关联性减小。为解决这些问题,本文提出了空洞卷积模块。空洞卷积模块是根据空洞卷积和残差网络23设计的小型网络结构,作用是模仿卷积核较大的卷积层,扩大网络的感受野,在增加提取信息连续性的同时尽量减少参数量。空洞卷积模块的具体结构如图 2所示,其中:AC(n,1)表示膨胀因子为 n,步长为 1,卷积核大小为 3的空洞卷积层;Conv(3,1)表示卷积核大小为 3,步长为 1的卷积层;Conv(1,1)表示卷积核大

17、小为 1,步长为 1的卷积层。每个卷积层后面都有一个正则化层24和 Leaky ReLU 激活函数层25(负斜率取值 0.1)。空洞卷积模块有两个特殊的结构,捷径连接和填充,如图 2所示。其中:捷径连接的作用是将整个模块整合起来,减少层数加深对网络的影响;填充是指当膨胀因子过大时,依次补充膨胀因子较小的空洞卷积层;超参数 T 表示空洞卷积模块膨胀因子的大小,t表示内部空洞卷积层的膨胀因子的大小,通过调节 T 的大小可以调节空洞卷积层数量。例如,当膨胀因子 T=4 时,无填充表示只含 1 个空洞卷积层,膨胀因子 t=4;有填充时,整个空洞卷积模块包含3个空洞卷积层,膨胀因子分别为 t=4,t=3

18、和 t=2,图 3表示膨胀因子 T=3时填充的类似作用。设计填充的原因是因为在空洞卷积层中当膨胀因子过大时,在卷积核大小不变的情况下,提取的信息过于分散,填充可以补充部分遗漏的信息,在一定程度上保证所提取信息的连续性,可以减少信息缺失对算法精度的影响。空洞卷积模块能较好地扩大感受野,相对于其他卷积核较大的卷积模块有较小的参数量,有利于加快模型的收敛速度。在加入捷径连接之后,空洞卷积模块成为一个整体,会减少网络层数的加深对网络性能的影响。填充是对空洞卷积层的一种补充,可以在一定程度上解决空洞卷积层提取信息不连续的问题,提取更多层次的信息。1.3特征提取模块FEM 模块的主要功能是获取左右图像的特

19、征,以获得视差图。图片的无纹理、弱纹理区域是立体匹配的难点,所以在立体匹配过程中需要网络有较大的感受野。本文采用空洞卷积模块来扩大网络感受野,主要原因是空洞卷积模块不仅可以扩大感受野,而且参数量较少,能适应小样本数据。FEM 模块包含 3个空洞卷积,膨胀因子 T依次为 2、3、3,步长均为 1;Corration 表示计算点积;其卷积层中卷积核大小 均 为 3,每 个 卷 积 层 后 面 都 有 一 个 正 则 化 层 和Leaky ReLU 激活函数层(负斜率取值 0.1)。FEM 模块的具体结构如图 4所示。FEM 模块的参数如表 1所示,其中:s表示步长;T 表示空洞卷积模块的膨胀因子;

20、“”表示不含该参数。图 3膨胀因子相同时有无填充的对比Fig.3Comparison of the same expansion factor with or without filling图 4特征提取模块的结构Fig.4Structure of feature extraction module图 2空洞卷积模块的结构Fig.2Structure of atrous convolution module2252023年 8月 15日Computer Engineering 计算机工程FEM 模块采用轻量级的结构,主要优点有两个:卷积层较少,且大部分卷积核为 33,在减少参数量的同时可以提高

21、算法的运行速度;使用了空洞卷积模块,具有较大的感受野,可以提取更多的信息,同时补充了所提取信息的连续性,缓解了空洞卷积提取信息的连续性问题。1.4初始视差模块DIM 模块的主要功能是通过提取的特征还原视差图。因为在计算视差时需要整合多层次的信息,所以本文采用“编码器-解码器”结构作为主要框架,以便于更好地还原视差图。同时在网络结构中加入特征金字塔注意(Feature Pyramid Attention,FPA)26模块。FPA 模块的作用是融合不同尺度的信息,扩大网络的感受野。本文对 FPA 模块进行了一定的修改,利用空洞卷积模块替换普通的卷积层,可以进一步扩大金字塔结构的感受野,获得更多的特

22、征信息。FPA模块的主要修改部分是将卷积核大小分别为77,55 的卷积层分别替换为膨胀因子为 T=3、T=2 的空洞卷积模块,FPA模块的结构如图 5所示。DIM 模块的整体结构如图 6 所示,其中空洞卷积模块的膨胀因子 T=2,步长为 2;普通卷积层中卷积核大小为 3,步长为 1。每个卷积层之后都有一个正 则 化 层 和 Leaky ReLU 激 活 函 数 层(负 斜 率 取值 0.1)。DIM 模块的参数如表 2所示,其中:s表示步长,T 表示空洞卷积模块的膨胀因子;“”表示不含该参数。DIM 模块首先通过空洞卷积模块获得较大的感受野,扩大提取信息的范围,然后通过 FPA 模块整合多层次

23、的信息,最后通过上采样逐步还原视差图。由于 3D 卷积结构参数量较大,不适用于小样本数据,所以本文算法没有使用 3D 卷积结构,而是采用基于 2D 卷积的“编码器-解码器”结构,以有效减少参数量。1.5视差细化模块DRM 模块的主要功能是将初始视差图进行优化,得到更加精确的视差图。本文借鉴了残差网络的思想,通过优化重构误差图的方式来优化视差图。重构误差是指通过右图像和初始视差图得到重构图,然后与左图像对照得到重构误差图。视差细化的作用是优化得到初始视差图,将其中视差值错误的像素点改正,而这些像素点大多属于异常区域,即遮挡、弱纹理、强光照等,所以去除这些异常点需要整个网络有较大的感受野。DRM

24、模块通过多个空洞 卷 积 模 块 和 尺 度 注 意 的 空 间 金 字 塔 池 化 模 块(Spatial Pyramid Pooling with Scale Attention,SPPSA)27扩大整个网络的感受野,从而获得更加优化的视差图。DRM 模块的结构如图 7所示,其中:卷积层的卷积核大小为 3,步长为 1;空洞卷积模块的膨胀因子均为 2,步长为 1;SPPSA 模块的作用是扩大感受野,同时调节不同层次信息的重要性程度;RE表示重构图。DRM 模块的参数如表 3所示,其中:s表示步长;T表示空洞卷积模块的膨胀因子;“”表示不含该参数。由于立体匹配的一些难点,如弱纹理、强光照、透明

25、重复等,初始视差图不够精确,所以在视差细化时需要较大的感受野和多尺度的特征,DRM 通过表 1FEM 模块的参数 Table 1Parameters of FEM module层号123和 456类型ConvACMACMConvConv输出32323264128s11121T23图 6DIM 模块的结构Fig.6Structure of DIM module图 5FPA模块的结构Fig.5Structure of FPA module表 2DIM 模块的参数 Table 2Parameters of DIM module层号79101121314类型ACMFPAConvConv输出128128

26、6432s211T2图 7DRM 模块的结构Fig.7Structure of DRM module226第 49卷 第 8期刘志浩,孟凡云,王金鹤,等:基于空洞卷积与注意力模块的立体匹配算法SPPSA模块和空洞卷积来实现。SPPSA模块能够整合多层次的信息,同时调节不同层次特征的权重,对于一些难点区域视差的计算有很大帮助。DRM 通过对重构误差图进行优化,侧面完善视差图,通过空洞卷积模块和金字塔池化模块扩大网络的感受野。本文使用 SmoothL1距离28作为监督训练的损失函数,如式(1)所示:L(didgti)=1NiSmoothL1()di-dgti(1)其中:N表示像素点个数;di表示第

27、i个像素点的视差值;dgti表示第i个像素点的标准视差值。2实验结果与分析 采用 KITTI 2012 数据集29和 KITTI 2015 数据集30(简称为 KITTI数据集)对本文算法进行评价和分析。本文设计了 3组实验:第 1组是对空洞卷积模块本身的性能和内部结构进行消融实验;第 2 组是对整个模型的结构和功能进行优化和对比;第 3 组是与其他算法性能对比。对 算 法 性 能 的 评 价 指 标 主 要 包 括 端 点 误 差(End-point-error,Epe)、Ed1、Rn,其中:Ed1 表示每组图像中评价部分的错误像素所占的百分比,Epen的像素所占百分比。Epe 表示预测视差

28、值与真实视差值之间差值的绝对值,表达式如式(2)所示:EEpe=1Ni=1N|di-dgti(2)其中:N为像素点个数;di表示第i个像素点的视差值;dgti表示第i个像素点的标准视差值。使用 PyTorch 框架构建网络,训练使用的 GPU型号为 RTX3090,以小批量随机梯度下降的方式训练模型,单次梯度更新的样本大小取值为 2。模型使用 Adam31优 化 器 调 整 学 习 率,延 迟 率 参 数 取(0.900,0.999),最大视差值 d设为 192。为提高网络模型的泛化能力,对训练数据进行空间变换增强和颜色增强。其中:颜色增强包括对比度增强、色调增强、亮度增强和随机灰度化;为保持

29、左右图像的核线几何特性,空间变换增强只包括随机裁剪和随机翻转,随机裁剪的像素大小为 384768 像素。算法总共 训 练 50 个 epoch,前 25 个 epoch 保 持 学 习 率 为0.001不变,之后逐步调整学习率,使学习率减半。2.1空洞卷积模块消融实验空洞卷积模块的消融实验主要用于评价空洞卷积模块的整体性能与内部结构的作用。使用空洞卷积模块代替普通卷积层,设置适当的膨胀因子,用膨胀因子为 2 的空洞卷积模块代替卷积核大小为 55的卷积层,用膨胀因子为 3 的空洞卷积模块代替卷积核大小为 77的卷积层。实验结果如表 4所示,其中:“”表示基础模型仅使用卷积核较大的卷积层,并未使用

30、空洞卷积;“”表示不使用该模块;“”表示使用该模块。模型自身主要包含两个部分的对比,捷径连接和填充。捷径连接是类似残差网络的一种结构。填充是指当膨胀因子较大时,依次补充膨胀因子较小的空洞卷积层,作用是补充所提取信息的相关性。由表 4 可以看出,空洞卷积模块的端点误差小于卷积核较大的卷积层的端点误差,降低约 0.4个百分点。主要原因是空洞卷积模块包含空洞卷积层和普通卷积层,空洞卷积层用于扩大网络感受野,普通卷积层用于保持提取信息的连续性。此外,空洞卷积模块内部有较多的卷积层,可以对提取的信息进行深层次处理。从空洞卷积模块内部来看,捷径连接能够明显提高算法的精度,提高约 0.07个百分点,主要原因

31、是捷径连接能够将整个模块整合起来,使其成为一个整体,从而使提取的信息既能保持一定的相关性,又能获得更大的感受野,有利于信息的整合和处理。由于填充增加了网络的层数,因此网络的参数量增加,在没有捷径连接时对算法产生了较大的影响。填充的作用是作为网络的补充,当网络需要较大的感受野时,将空洞卷积模块设置较大的膨胀因子,同时通过填充来保证提取的信息具有一定的连续性,避免因为空洞卷积的特性影响算法的精度。2.2网络模型实验网络模型实验是对整个网络模型进行结构和功能的优化,针对 KITTI数据集设计恰当的模型,需要分别对不同的模块进行优化。主要包含 2个部分,第1个部分主要对特征提取模块进行层数优化,第 2

32、个部分分别对初始视差模块和视差细化模块加入不同表 4空洞卷积模块内部不同结构的性能对比 Table 4Performance comparison of different structures within atrous convolution module%空洞卷积模块的类型基础模型prototype 1prototype 2prototype 3prototype 4填充捷径连接Epe2.0781.6301.8391.5491.556Ed112.1849.45610.0498.8828.882R132.47927.13327.43126.17026.105R312.5449.90510.

33、3969.3969.396R58.2876.6277.1336.1956.179表 3DRM 模块的参数 Table 3Parameters of DRM module层号151618192021类型ConvACMSPPSAACMConv输出323232321s1111T222272023年 8月 15日Computer Engineering 计算机工程的功能性结构 FPA模块和 SPPSA模块,并进行对比。2.2.1特征提取模块的层数优化实验特征提取部分的网络层数对整个网络的性能有一定影响,本文通过调节卷积层的个数提升算法的性能。其中:超参数 L 表示空洞卷积模块的个数;超参数 T表示膨胀

34、因子大小。通过调节 L的大小,得到最优的网络结构。统一设置空洞卷积模块的膨胀因子 T=2,保证单一变量,实验结果如表 5所示,表中加粗数字表示该组数据最佳值。可以看出,在膨胀因子为 2、L=3 时模型性能最好。从表 5 中可以看出在卷积层较少时,网络性能会随层数的增加而迅速提升,在 L=3之后精度缓慢降低。原因是数据集较小,模型一旦过大容易出现欠拟合问题,同时参数量的增加使模型收敛速度降低,在相同条件下无法达到最优结果。在确定层数之后调节膨胀因子大小,以获得适合的感受野。由于空洞卷积模块中填充的影响,调节空洞卷积模块中膨胀因子 T 的大小会影响到卷积层的个数,所以在增大 T的同时适当调小 L。

35、因为当T=2时,L=3的结果最好,所以以此为基准进行实验,以获得最优的结果,结果如表 6所示,表中加粗数字表示该组数据最佳值,参数 T 的个数由参数 L 决定。由表6可以看出,T=2,3,3 时效果最好,这表明当3个空洞卷积模块在膨胀因子 T依次为 2、3、3时,模型的性能最好。表 5 和表 6 的实验结果表明,在特征提取阶段,模型的层数和大小会给模型的性能带来较大影响。随着层数的加深,模型的精度会越来越高,但到达一定界限后会逐渐降低。主要原因是受到数据集大小的影响,由于数据集较小,导致一旦模型过大,参数量就会增加,最终影响模型的性能。2.2.2FPA和 SPPSA模块的对比实验模型自身消融实

36、验主要测试整个网络结构中FPA 模块和 SPPSA 模块的功能和作用。FPA 模块通过金字塔结构整合多层次的信息,尤其对较深层次的特征信息有较好的效果,将 FPA 模块加入“编码器-解码器”结构中能够更好地发挥作用。SPPSA 模块的主要作用是扩大模型的感受野,同时能够调节不同层次信息所占比重。而视差细化阶段需要较大的感受野,同时需要对不同层次的信息进行处理,所以 SPPSA模块能够在视差细化过程中获得较好的效果,实验结果如表 7 所示,其中“”表示不使用该模块,“”表示使用该模块。由表 7 可以看出,同时具有 SPPSA 模块和 FPA 模块能够得到更好的效果,而单独使用 SPPSA模块或者

37、 FPA模块只能起到部分作用。相对于单一模块,同时具有 SPPSA 模块和 FPA模 块 能 提 升 约 8%的 精 度。这 说 明 FPA 模 块 和SPPSA 模块分别起到了不同的作用,且能相辅相成,共同提高算法的精度。由于本文提出的空洞卷积模块可以在扩大感受野的同时减少参数量,同时 FPA 模块需要较大的感受野来整合多层次的信息,所以本文算法对原 FPA模块进行了改进,用空洞卷积模块代替其中的部分卷积层,这样修改的目的是进一步扩大 FPA 模块中金字塔结构的感受野,增加提取的信息量,以便于更好地整合信息。修改之后 FPA 模块的结构如图 4 所示。模型的性能有了一定的提升,原因是空洞卷积

38、模块扩大了 FPA 模块的感受野,使 FPA 模块能获得更多信息,有利于信息的整合和利用。网络模型实验是对整个网络结构进行优化,通过对不同模块进行不同的处理以提升算法的性能。首 先,对 网 络 中 的 不 同 模 块 进 行 层 数 优 化,包 括FEM、DIM 和 DRM 模块,得到适合的网络规模,使其适应 KITTI 数据集;其次,在 DIM 中加入 FPA 模块,提取网络中多层次信息并进行整合,并根据本文提出的空洞卷积模块对 FPA 模块进行适当修改,以更好地发挥作用;最后,在 DRM 中加入 SPPSA 模块,扩大网络感受野,以便于更好地完善视差图。表 5不同空洞卷积模块个数下的模型性

39、能对比(T=2)Table 5Comparison of model performance under different number of atrous convolution module(T=2)%参数 L12345Epe1.8531.7651.6741.6881.699Ed110.92610.4389.70410.0979.948R129.44529.23427.69026.96628.126R311.30510.82810.08610.54210.369R57.6237.1646.7237.0986.970表 6空洞卷积模块中膨胀因子和层数对模型性能的影响 Table 6Infl

40、uence of expansion factor and number of layers on model performance in atrous convolution module%参数 L2233333参数 T2,33,32,2,22,3,22,3,32,3,43,3,3Epe1.5671.5471.6741.6381.4831.7271.588Ed19.0118.8589.7049.4768.5309.8828.995R126.10426.38727.69027.48225.82328.55926.291R39.4769.37010.0869.9189.05410.3189.4

41、34R56.2906.1456.7236.5405.8026.7326.277表 7FPA模块与 SPPSA模块的性能对比 Table 7Performance comparison between FPA module and SPPSA module%编号123FPAASPPEpe1.7131.7351.483Ed19.2109.9658.530R39.59010.3549.054228第 49卷 第 8期刘志浩,孟凡云,王金鹤,等:基于空洞卷积与注意力模块的立体匹配算法2.3与其他算法的对比为了验证本文算法的性能,在相同条件下将本文算法和其他算法进行对比。数据集选择 KITTI 2012

42、和 KITTI 2015,所有算法均未进行预训练,在相同条件下,对各个算法进行训练和测试,实验结果如表 8所示,表中加粗数字表示该组数据最佳值。可以看出本文算法的结果要显著优于其他算法,这是因为其他算法模型过大导致参数量剧增,同时数据集较小导致模型欠拟合,所以这些算法大多需要大型数据集进行预训练才能获得较好的效果,在只有小样本数据的情况下无法达到较好的训练效果。而本文所提算法是基于小样本数据的,模型较小,参数量较少,所以对于小样本数据有较好的效果。除本文算法外,DispNetC 算法的效果较好,原因是 DispNetC算法规模较小,并且未使用 3D 卷积,这使得算法参数量较少,有利于算法的收敛

43、。图 8 表示在相同情况下,不同算法的训练结果和 收 敛 速 度。具 体 条 件 是 使 用 相 同 的 数 据 集KITTI,共训练 50 个 epoch,初始学习率为 0.001,在25 个 epoch 之后逐步减小学习率。从图 8 中可以看出本文算法的端点误差最低,同时具有较快的收敛速度,主要原因是在使用小样本数据的情况下,其他算法的训练效果并未达到最优。图 9 是使用不同算法得到的视差图(彩色效果见 计算机工程 官网 HTML版),由于在非评价区域没有真实视差值,所以将得到的视差图中的非评价区域部分剪掉。从图 9中可以看出本文算法得到的视差图较为精确,主要原因是其他算法在数据集较小且训

44、练次数较少的情况下无法达到最优的效果。在图 9(i)中可以看出本文算法仍然存在一些问题,边缘特征和图像内部的纹理信息较明显,这说明本文算法得到的视差图在边缘特征和背景特征方面还有很大的改进空间。将图 9(c)和图 9(f)进行对比可以明显看出本文算法得到的视差图距离真实视差图还有较大的差距。之后需要改进的方面是加强算法对边缘特征和背景特征的提取和调节,在视差细化时加入边缘特征和一致性特征。图 9不同算法的可视化结果对比Fig.9Comparison of visualization results of different algorithms表 8与其他算法的性能对比 Table 8Perf

45、ormance comparison with other algorithms%算法DispNetC1PSMNet11MLTNet27MBFNet32本文算法Epe2.2957.6346.1556.6581.483Ed115.29354.64546.64348.9218.502R146.15880.23579.35378.42725.823R315.90654.20346.74449.0059.054R59.18735.64529.73233.7845.802图 8不同算法的运行结果Fig.8Running results of different algorithms2292023年 8月

46、 15日Computer Engineering 计算机工程由于本文算法针对小样本数据,因此精度无法达到和其他算法相当的程度。这是因为其他算法大多通过对大型数据集进行预训练,使整个网络模型达到较好的效果,然后再用小数据集进行微调,得到更加精确的结果,所以这些算法的精度要高于本文算法。但是针对小样本数据 KITTI 数据集,本文算法的精度优于其他算法。3结束语 本文提出一种结合空洞卷积的端到端立体匹配算法,基于小样本数据构建轻量级立体匹配模型,使用空洞卷积模块,以相对较少的参数量扩大感受野,并在一定程度上保证提取数据的连续性和相关性。在网络结构中加入 FPA 模块和 SPPSA 模块,从而在扩大

47、网络感受野的同时整合多层次的信息。实验结果表明,在小样本数据下,本文算法具有较快的收敛速度和较高的精度。但本文算法仍然存在视差图中边缘不够清晰、模型的泛化能力较差等问题。下一步将对图像的边缘特征进行研究,通过设置多任务和分解模型,提升立体匹配算法的精度。参考文献 1 MAYER N,ILG E,HUSSER P,et al.A large dataset to train convolutional networks for disparity,optical flow,and scene flow estimation C/Proceedings of IEEE Conference on

48、Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2016:4040-4048.2 BONTAR J,LECUN Y.Computing the stereo matching cost with a convolutional neural network C/Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2015:1592-1599.3

49、ZBONTAR J,LECUN Y.Stereo matching by training a convolutional neural network to compare image patches J.Journal of Machine Learning Research,2016,17(1):2287-2318.4 LUO W J,SCHWING A G,URTASUN R.Efficient deep learning for stereo matching C/Proceedings of IEEE Conference on Computer Vision and Patter

50、n Recognition.Washington D.C.,USA:IEEE Press,2016:5695-5703.5 PARK H,LEE K M.Look wider to match image patches with convolutional neural networksJ.IEEE Signal Processing Letters,2017,24(12):1788-1792.6 CHEN Z Y,SUN X,WANG L,et al.A deep visual correspondence embedding model for stereo matching costs

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服