基于多维注意力的立体匹配网络.pdf

资源描述

1、年第卷第期传感器与微系统（）：（）基于多维注意力的立体匹配网络孙国栋，张航，李超，杨雄（湖北工业大学机械工程学院，湖北武汉）摘要：针对基于深度学习的立体匹配算法在挑战区域（如细节区域、弱纹理区域）存在一些误匹配的问题，提出一种基于多维注意力的立体匹配方法。首先，设计空间金字塔注意（）模块，通过将空间金字塔结构与注意力机制相结合，获取更有效的全局上下文信息，来提高匹配精度；然后，构建注意力堆叠沙漏聚合（）模块，在堆叠沙漏结构中引入注意力机制（），对匹配代价体进行重新校准，以进行更精确的视差计算；同时，采用可微分的（）方法，通过减少候选视差数量，构建轻量级匹配代价体，在保证模型匹配精度的同时，

2、降低了计算资源的消耗。在、和数据集上的实验结果表明，与基准方法相比，所提算法在减少运行时间的同时提高了匹配精度。关键词：深度学习；立体匹配；注意力机制；匹配代价体中图分类号：文献标识码：文章编号：（），（，）：，（），（），（），（），：；引言双目视觉在无人驾驶、机器人学、遥感、位姿估计等领域中发挥着重要的作用。其中，立体匹配是双目视觉研究中的重点与难点，旨在从一对校正的图像中获取视差图。传统算法包括个步骤：代价计算、代价聚合、视差计算和视差校正。近年来，得益于深度学习的应用，立体匹配算法取得了较大的进展。和首次将卷积神经网络（）应用于立体匹配，提出的用深度度量替代了人工设计的匹配代价度量，

3、用一个深度暹罗网络来计算个图像块之间的相似度。等人通过滑动窗口的点积运算，获得了视差搜索范围内每个像素的相似性得分。等人构建了第一个用于视差预测的端到端网络，该网络的相关层用于度量左右图像特征的相似度。等人提出了一种称为级联残差学习（）的二段结构，第一阶段给出初始预测，第二阶段学习残差。等人提出的，通过连接左右图像的一元特征来构造匹配代价体（高、宽、视差和特征尺寸），收稿日期：基金项目：国家自然科学基金资助项目（）传感器与微系统第卷并且用卷积来提取基于高、宽和视差个维度的特征表示。等人提出的使用空间金字塔池化（，）模块来获取多尺度特征表示，并且使用堆叠沙漏结构的卷积来规则化匹配代价

4、体。基于端到端的立体匹配方法无需任何后处理，并且极大提高了匹配精度，但在细节区域、弱纹理区域等挑战区域的视差预测仍存在一些技术困难。本文在的基础上，建立一个基于多维注意力的立体匹配网络。在特征提取阶段，将空间金字塔结构与注意力机制（，）相结合，利用通道向量获得更有效的全局信息以丰富挑战区域特征，从而更好地进行视差预测。然后在堆叠沙漏结构中引入通道注意力，使模型聚焦于挑战区域内的有效特征。同时，考虑到许多模型精度的提高是以牺牲计算为代价的，采用可微分的（）方法，通过减少候选视差的数量，构建一个轻量级匹配代价体，在保证匹配精度的同时减少了计算负担。基本原理整体网络架构本文网络结构如图所示，基本流程

5、如下：）将左右图像对输入权值共享的中得到特征图，然后使用空间金字塔注意力（，）模块来获取更丰富的全局上下文信息；）将左右特征在部分视差值处级联，构建轻量级匹配代价体；）在代价聚合中，使用注意力堆叠沙漏聚合（）模块对匹配代价体进行重新调整；）通过视差回归函数对视差进行预测。预测视差图视差回归代价聚合构建轻量级代价体回归上采样ASA模块匹配代价体DPMSPA模块CNNCNN特征提取输入图像对右图左图SPA模块权值共享图所提算法的网络结构模块本文借鉴语义分割的研究经验，将空间金字塔结构与相结合，设计模块，具体网络结构如图所示，该模块可以利用通道注意向量来提取像素级全局上下文信息。Conv11Con

6、v11Conv33Conv33Conv55Conv55Conv77Conv77Conv11Sigmoid输入+图模块结构模块通过形结构将种不同金字塔尺度下的特征进行融合，为了更好地从不同尺度中提取上下文信息，在金字塔结构中分别使用了卷积核大小为，的个连续的卷积层，而且每个金字塔尺度的卷积运算都是基于前一个尺度。由于高级特征图的分辨率较小，在这里使用较大尺寸的卷积核不会带来太大计算的负担。并且使用形结构增加了网络深度，提高了网络的匹配性能，更准确地融合了全局上下文信息特征。然后模块将经过卷积和运算的输入与多尺度金字塔特征相乘，这样就可以使用通道注意向量有效地选择像素级全局信息。模块在代价聚

7、合中，使用的堆叠沙漏结构无法有效地关注匹配代价体的通道信息，并且对输入信息中的重要特征未进行高效利用和有效整合，这使得模型不能有效地关注重要特征。受通道注意力的启发，本文针对匹配代价体特征的属性，在堆叠沙漏结构中引入通道注意力，构建模块，具体的网络结构如图所示。该模块能够计算不同通道间的相互依赖性，感知不同通道特征的重要程度，细化了匹配代价体的特征，从而使重要的图像特征得到有效关注以进行更精确的视差预测。输出 3输出 2输出 1回归双线性回归双线性回归双线性3D注意力3D注意力3D注意力图模块结构实现通道注意力的单元结构如图所示，它将经由堆叠沙漏结构生成的匹配代价体作为输入，与通道获得的响

8、应值相乘，得到重新校准的代价体。级联校准后代价体WHDC11DCWHDC输入代价体堆叠沙漏SigmoidFC ReLU3D 全局平均池化FC图通道注意力单元结构首先，在通道维度上对输入匹配代价体进行全局平均池化操作，将压缩为，得到一个全局张量。这里采用全局平均池化操作可以使获得的全局视野，从而更好地整合全局空间信息。在得到后，为了降低单元的复杂度，提高泛化能力，本文接着采用个全连接（）层。为了减少计算量，第一个层将特征维度压缩到，然后采用函数激活。第二个层将其输出结果恢复到原来的维度，经过函数得到通道响应值。最后将响应值与输入匹配代价体相乘得到重新校准的匹配第期孙国栋，等：基于多维

9、注意力的立体匹配网络代价体。构建轻量级匹配代价体在模块和模块中，通道注意力的引入会导致模型计算量的增加，并且是在整个视差搜索空间内构建匹配代价体，这使得代价体的构建和后续代价聚合的计算量也随之增大。因此，本文采用方法，通过丢弃大部分视差，构建一个轻量级匹配代价体，从而减少计算资源的消耗。包括视差初始化、邻域传播和视差评估这个步骤，在完成初始化后，就在传播和评估之间进行迭代，直到收敛。）视差初始化：对于每个像素，先将最大视差范围划分为个视差区间，然后在每个区间内随机采样一个视差值。）邻域传播：采用预定义的滤波模式将每个像素的视差值传播到其个邻域像素。）视差评估：对于每个像素，通过计算左右特征间

10、的内积来得到匹配分数，然后，通过求得每个区间的最佳视差样本，并将个最佳视差值送到下一次迭代中。最后在最终得到的部分视差值处级联左、右特征图；构建一个轻量级匹配代价体，其数学定义为（，）（，），（，）（）式中和为左、右特征图；为修剪后视差值。视差回归和损失函数本文采用视差回归方法来得到视差预测结果。通过操作在修剪后的视差范围，内得到每个像素对应每个视差的概率并将其作为权重，对视差值进行加权求和得到最终的预测视差值。计算公式如下（）（）式中为最终预测视差值，为修剪后视差值，为预测代价，（）为操作。本文采用平滑的损失作为基础损失函数，计算如下（，）（）（）（），0（）式中为标记像素的数量，为真

11、实视差，为最终的预测视差。实验结果与分析为了验证本文算法的性能，在、和数据集上对其进行实验分析。实验细节在环境下，采用深度学习框架，使用一块，实现了本文算法。模型的训练使用（，）作为优化器，并对图像对进行随机裁剪，剪切后像素大小为，将最大视差设为。对于数据集，将学习率设置为，重复迭代个周期来对模型进行训练。对于数据集，本文将和的图像对结合起来，使用数据集的预训练模型来进行微调。微调的迭代周期为，批尺寸大小为，在前个迭代周期中，学习率设置为，在后个迭代周期中，学习率衰减到。消融实验首先在上对模块进行评估，然后对模块进行评估，最后将本文方法融合在一起与基准网络进行对比。其中，表示轻

12、量级匹配代价体，未打“”表示模型使用了相对应的网络模块。实验结果如表所示。表不同网络模块的效果评估算法网络模块本文从表中可见，本文算法的值为，相较于基准方法的减少了。由第一行结果表明，模块能够获得更加有效的上下文信息来计算视差；由第二行结果表明，在进一步扩展了后可以获得更加精确的视差计算结果。第三行采用了轻量级的匹配代价体，可以看出，在减少计算负担的情况下仍然可以得到较低的值。与其他算法性能对比在上将本文算法与其他算法对比结果如表所示。图为预测视差图与真实视差图的比较，本文算法既可以对简单规则的物体进行高精度的匹配，对复杂和细小的对象也能够实现良好的预测效果。本文方法与基准方法相比，

13、值减少了，结果表明，本文算法在精度方面具有一定竞争力；测试一对图片的运行时间，本文方法比基准方法相比，计算速度更快。表在数据集上的评估结果算法本文从表中结果看出，本文算法在上表现良好，无论是在“”区域还是在“”区域，值均小于表中算法。相较于，本文算法尤其在前景（）表现优秀，在“”区域的值降低了，在“”区域传感器与微系统第卷图测试集预测视差图的值降低了，结果表明，本文算法对需要关注的对象能取得较好的匹配效果。由图可以看出，本文算法不仅能够清楚地表示被测对象的突出特征（如路牌和树冠等），又能够在弱纹理区域（如车身玻璃）得到准确的视差图。表不同算法在数据集上的评价结果算法

14、本文 (d)?本文(c)?PSMNet(b)?GC-Net(a)?左视图图测试集预测视差图在上的评估结果如表所示，图为在测试集上的预测视差图。从整体的预测效果来看，本文方法能够得到平滑、稳健的视差图。在细节区域（如孔洞、路灯、排水管），本文方法能够比其他方法获得更加精确的视差信息。表不同算法在数据集上的评价结果算法平均误差本文泛化能力验证本文没有使用数据集进行额外的训练，仅使用微调模型来预测视差图，实验结果如图所示。采用平均绝对误差作为评估指标。从表中数据可以看出，本文方法比有着更强的泛化能力。(f)?本文(e)?AANet(d)?PSMNet(c)?GC-Net(b)?MC-

15、CNN-art(a)?左视图图测试集预测视差图(c)?真实视差图(b)?本文算法视差图(a)?左视图图在数据集上的验证结果表在数据集上的验证结果算法本文误差结论实验结果表明：本文算法在减少计算量的同时提高了视差预测的精度，并且在细节区域表现良好。但本文算法在代价聚合过程中采用了参数量庞大的卷积，使得内存消耗和计算负担变大，无法满足实时性与可移植性的需求，这将是下一个阶段的研究目标。参考文献：姚安庆，徐建明基于双目视觉的电动汽车充电孔识别定位系统传感器与微系统，（）：，（）：，（）：，（）：，：，：（下转第页）第期陈璐，等：不同温度下基于的锂电池估计与预测，（）：庞景月，马云彤，刘大同，

16、等锂离子电池剩余寿命间接预测方法中国科技论文，（）：，：陈毅，黄妙华，王树坤基于数据驱动的锂电池剩余容量估计自动化与仪表，（）：，（）：，：，（）：徐超，李立伟，杨玉新，等基于改进粒子滤波的锂电池预测储能科学与技术，（）：程自立纯电动汽车锂离子动力电池估算方法研究重庆：重庆邮电大学，陈则王，李福胜，林娅，等基于的锂离子电池间接预测方法计量学报，（）：作者简介：陈璐（），女，通讯作者，硕士研究生，研究方向为电池健康状态和剩余寿命。于仲安（），男，教授，硕士研究生导师，研究领域为计算机控制理论与技术，电力系统继电保护，电力电子技术与应用。熊莹燕（），女，硕士研究生，研究方向为电池估计与均衡檸檸檸檸

17、檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸。（上接第页），：，：，：，：，：，：，：，（）：，：，？，：，：，：，：作者简介：孙国栋（），男，博士，教授，主要研究领域为计算机视觉与深度学习。张航（），男，硕士研究生，研究方向为双目视觉与深度学习檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸檸。（上接第页），：，冯兴杰，生晓宇基于图神经网络与深度学习的商品推荐算法计算机应用研究，（）：，：，：，：作者简介：成凌飞（），男，博士，教授，主要从事通信与监控方面的研究与教学工作。杨向峰（），男，硕士研究生，研究方向为个性化推荐系统。

展开阅读全文