收藏 分销(赏)

一种基于立体注意力机制的立体图像超分辨算法_罗传未.pdf

上传人:自信****多点 文档编号:467579 上传时间:2023-10-12 格式:PDF 页数:6 大小:2.08MB
下载 相关 举报
一种基于立体注意力机制的立体图像超分辨算法_罗传未.pdf_第1页
第1页 / 共6页
一种基于立体注意力机制的立体图像超分辨算法_罗传未.pdf_第2页
第2页 / 共6页
一种基于立体注意力机制的立体图像超分辨算法_罗传未.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、30电视技术 第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计文献引用格式:罗传未,张子慧,贺子婷,等.一种基于立体注意力机制的立体图像超分辨算法 J.电视技术,2023,47(1):30-35.LUO C W,ZHANG Z H,HE Z T,et al.A stereo image super-resolution algorithm based on stereo attention mechanismJ.Video Engineering,2023,47(1):30-35.中图分类号:TP311.1 文献标识码:A DOI:10.16280/j.videoe

2、.2023.01.007一种基于立体注意力机制的立体图像超分辨算法罗传未,张子慧,贺子婷,周孟颖,马 健*(安徽大学 互联网学院,安徽 合肥 2300001)摘要:针对因图像采集系统或采集环境本身的限制导致的立体图像模糊、质量低下、感兴趣区域不显著等问题,在最新的基于立体注意力模块的立体图像超分辨算法的基础上,通过在单图超分辨(Single Image Super-Resolution,SISR)的深度网络中引入立体图像左右两个视点间的互补信息以及平滑损失(Smoothness Loss)函数,增强超分辨后立体图像的视觉效果。在该算法中,梯度更小、更加平滑的立体注意力图可以获得更好的立体图像超

3、分辨效果。为证明引入的函数有效,对改进前后的基于立体注意力机制的立体图像超分辨算法进行对比实验和分析,结果表明,引入平滑损失后,SRCNN 和 SRResNet 模型的峰值信噪比(Peak Signal to Noise Ratio,PSNR)值和结构相似性(Structural Similarity,SSIM)值有明显提高。关键词:图像超分辨;立体图像;立体注意力;平滑损失函数A Stereo Image Super-Resolution Algorithm Based on Stereo Attention MechanismLUO Chuanwei,ZHANG Zihui,HE Ziti

4、ng,ZHOU Mengying,MA Jian*(School of Internet,Anhui University,Hefei 2300001,China)Abstract:To address the problems of blurred stereo images,low quality and unremarkable regions of interest due to the limitations of the image acquisition system or the acquisition environment itself.In this paper,base

5、d on the latest stereo image super-resolution algorithm based on stereo attention module,the complementary information between the left and right viewpoints of stereo image and the smoothness loss function are introduced into the depth network of Single Image Super-Resolution(SISR)to enhance the ste

6、reo image after super-resolution.visual effect after super-resolution.In this algorithm,a smaller gradient and smoother stereo attention map can obtain a better stereo image super-resolution effect.In order to prove the effectiveness of the introduced function,this paper conducts comparison experime

7、nts and analysis on the stereo image super-resolution algorithm based on stereo attention mechanism before and after the improvement,and the results show that the Peak Signal to Noise Ratio(PSNR)and Structural Similarity(SSIM)values of SRCNN and SRResNet models are significantly improved after the i

8、ntroduction of smoothness loss.Keywords:image super-resolution;stereoscopic image;stereo attention;smoothness loss function0 引 言随着双目成像技术的发展,双目相机和双目摄像头在手机和自动驾驶上的应用越发流行,立体图像超分辨(Stereo Image Super-Resolution)领域逐渐被人们关注。立体图像应用发展的同时,立体图像超分辨任务也面临着涉及图像处理、计算机视觉、立体视觉等领域的基本问题。基于现有的图像超分辨率研究成果,领域内学者从不同角度对其进行了总结1

9、-3。JEON 等4提出一种基于视差先验的立体图像超分辨重建算法。该算法将右图水平移动不同像素,生成 64 张副本图像,将其与左图级联后送入网络重建。WANG等5提出基于视差注意力机制的立体图像超分 通信作者:马 健(1985),男,博士,讲师,研究方向为沉浸式的多媒体计算、深度学习。E-mail:jian_。电视技术 第 47 卷第 1 期(总第 566 期)31PARTS&DESIGN器件与设计辨算法,将 self-attention 引入到双目视觉中,并通过设计 valid mask 解决左右图遮挡问题。ZHANG等6提出用于立体图像超分辨率的循环交互网络(RISSRnet)来学习视图间

10、依赖关系。YING 等7提出一个通用的立体注意力模块(Stereo Attention Module,SAM),将其安插至预训练好的单图超分辨率(Single-Image-Super-Resolution,SISR)网络中(如SRCNN8)并在双目图像数据集 Flickr1024 上进行微调,结合左右图互补信息的同时保持对单图信息的充分利用,进一步提升了超分辨性能。ZHU 等9提出了一种基于交叉视点信息捕获的立体图像超分辨算法。DAI等10提出一种基于视差估计的反馈网络,可同时进行立体图像超分辨重建和视差估计。尽管现有的立体图像超分辨方法取得了一定的超分辨效果,但仍面临如下诸多挑战:(1)双目

11、图像中,视差的巨大变化使得左右图互补信息难以被充分捕捉;(2)在捕捉到左右图的关联后,如何充分利用双目图像提供的信息也具有挑战性;(3)双目图像超分辨在结合左右图的互补信息的同时,还要充分利用一幅图内的信息。基于以上问题,本文主要研究了基于立体注意力机制的立体图像超分辨方法。为获得更好的立体图像超分辨重建效果,本文对单图超分辨率模型提出进一步改进,在模型的损失函数中加入平滑损失项,使模型在立体图像对中获得更好的一致性。通过对改进前后的算法进行实验结果比较,验证了改进策略的有效性。改进策略明显提高了立体图像超分辨重建后的图像质量。1 基于立体注意力机制的立体图像超分辨算法1.1 网络模型结构基于

12、注意力机制的立体图像超分辨算法的总体框架如图 1 所示。首先,将立体图像对(包括左视角图像和右视角图像)送入两个 SISR 网络中,提取左右图的特征,并生成特征矩阵。其次,在两个SISR 网络之间插入立体注意力模块。该模块将两个 SISR 网络提取的左右视角信息进行交互,通过卷积的方式,将单个视角图像内部的信息与不同视角间的互补信息充分融合。最后,通过双路的 SISR网络耦合重建高分辨率的立体图像。图 1 基于立体注意力机制的立体图像超分辨算法网络总体框架1.2 立体注意力模块结构SISR 网络会对输入的左右视角图像进行特征提取。经过立体注意力模块时,立体注意力模块将SISR 网络产生的这些立

13、体特征作为输入,捕获立体对应关系,在立体图像超分辨过程的多个阶段交互图像对的左右视角信息。该算法中的立体注意力模块结构如图 2 所示。该算法网络可看作一个多任务网络,既可学习立体图像间的立体对应,也可学习图像的超分辨。在多个任务中,使用共享的图像特征来学习不同任务。输入的左右视角特征F inleft和F inright(F inleft,F inrightRHWC,H,W和C分别为特征图的高度、宽度和通道数)先输入过渡残差块Hresidual中,以避免多任务学习产生的训练冲突,然后分别经过处理对应视角的 11 卷积层H和H生成对应的特征映射Fm1和Fmr(Fm1,FmrRHWC)。为了生成立体

14、注意力图,先将Fmr转置为FTmr(FTmrRHCW),在FTmr与Fm1之间执行批量的矩阵乘法,生成初始的注意力得分图GRHWC。然后应用 softmax 分类,对G和GT进行归一化处理,将多分类的输出结果转化为0到1之间的概率分布,分别生成Aright left和Aleft right的立体注意力图。为了将特征信息从一个视角转移到另一个视角,并得到经过交互的对应视角特征,分别用生成32电视技术 第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计的立体注意力图Aright left和Aleft right乘上输入模块初始视角特征F inleft和F inright,

15、构造视角信息经过交互后的特征Fleft right和Fright left(Fleft right,Fright left RHWC)。这一过程的具体表示如下:Fleft right=Aleft rightF inleft(1)Fright left=Aright leftF inright(2)式中:表示批处理的矩阵乘法。由于在遮挡区域中立体图像间相对应区域的左右一致性不成立,被遮挡区域无法从另一侧视角图像中获得额外信息。为处理遮挡问题,使用遮挡检测的方法来生成有效的掩膜(Mask),引导特征的融合。观察到遮挡区域中的像素通常有较小的权重,可用如下计算方法获取该注意力模块的上部分分支的有效掩

16、膜Mleft right:()()leftright1,leftright1,0,kWAi j kMi j=若其他(3)式中:W是立体图像的宽度,为阈值,根据实验经验设为 0.1。因为左视角图像中的被遮挡像素无法在右视角图像中搜索到它们的对应,所以它们的Mleft right(i,j)值通常较低,于是该网络将这些区域作为遮挡区域。左视角图像中的遮挡区域无法从右视角图像中获得附加的场景信息,因此有效的掩膜Mleft right(i,j)可以进一步用于引导图像特征的融合。同理,使用类似的方法生成该注意力模块的下部分分支的有效的掩膜Mright left。为了将交互的不同视角间的互补信息与单个视角下

17、图像内部的信息整合起来,该模块将输入的左视角特征F inleft和经视角间对应交互得到的右视角特征Fright left以及有效掩膜Mleft right三者相级联,通过一个卷积层整合,得到特征F outleftRHWC,即为该模块输出到网络中的左视角特征。输出的右视角特征F outright也用相似的方法生成。这一过程可表示如下:F outleft=H(cas(Mleft right,Fright left,F inleft)(4)F outright=H(cas(Mright left,Fleft right,F inright)(5)式中:cas(,)表示级联操作,H和H分别表示对应的视

18、角处理线路上的卷积操作,该操作将交互后的视角特征信息与原输入特征信息以及有效掩膜整合到一起。1.3 损失函数设置该算法主要使用了两项损失来训练网络,分别是超分辨损失和光度一致性损失。网络的总损失函数定义为 SRphotometric1niiLLL=+(6)式中:为正则化权值,根据经验设置为 0.01;n为网络中注意力模块的个数。LSR表示超分辨损失,定义为超分辨重建后的左视角图像I SRleft与左视角图像高分辨率主观值I HRleft之间的均方误差(Mean Square Error,MSE):2SRSRHRleftleft2LII=(7)Lphotometric表示光度一致性损失,*表示同

19、阶矩阵乘法,Ileft和Iright分别表示输入的左视角图像和右视角图像。该损失定义为()()photometricleftrightleftrightleftright1rightleftrightleftright1*LMIAIMIAI=+(8)1.4 算法改进策略本小节在加入立体注意力机制的 SISR 方法基础上,对本文的算法网络做出一个改进,以实现更图 2 立体注意力模块的内部结构 电视技术 第 47 卷第 1 期(总第 566 期)33PARTS&DESIGN器件与设计好的立体图像超分辨性能。在本算法中,如果立体注意力图更加平滑,梯度更小,则可以获得更好的立体图像超分辨效果。在当前损

20、失函数的基础上,本节引入平滑损失(Smoothness Loss)函数,将平滑损失定义在立体注意力图Aleft right和Aright left上,具体定义如下:()()()()smoothness1,1,1,1,1A i j kLA i j kA ij kA i j kA i jk=+(9)式(9)的第一项用于实现图像垂直方向的注意一致性,第二项用于实现水平方向的注意一致性。加入该平滑损失,可以在弱纹理区域中产生更加准确且具有一致性的注意力,对图像起到平滑的作用。加入平滑损失后,该算法网络的总损失函数定义如下:SRphotometricsmoothness11nniiiiLLLL=+(10

21、)式中:经过多次实验测试得出设置为 0.002 5 的效果最好,此处设置为 0.002 5;n为网络中立体注意力模块的个数,其他项详见第 2.3 节中对于损失函数的描述。2 实验及结果分析本节首先介绍了数据集和实验设置,然后对改进前后的基于立体注意力机制的立体图像超分辨算法进行对比实验和分析。2.1 数据集选择及实验设置本文使用 Flickr1024 数据集11作为训练集。在实验中,考虑到计算资源的有限,本文仅选择Flickr1024 数据集中的 400 张图像进行网络模型的训练,同时对该数据集进行了训练数据的增强。在对模型的测试中,本实验使用来自 Middlebury 数据集12的 5 对立

22、体图像,来自 KITTI 2012 数据集13的 20 对立体图像和来自 KITTI 2015 数据集14的 20 对立体图像作为测试数据集,用于检验和选择出最好的模型。此外,还从该数据集中选择了另外 50 对立体图像作为验证集,以挑选出最优的模型结构。在算法改进的对比实验设置上,本文选择合适的 SISR 网络,对改进前后的基于立体注意力机制的立体图像超分辨算法进行对比实验和分析,以探究此项改进的有效性。2.2 算法改进的对比实验与分析本文仅针对 4 倍的超分辨网络应用此项平滑损失的改进。首先对比了 SRCNN 模型和 SRResNet模型改进前后的 4 倍超分辨结果。其中,“SA_smoot

23、h”表示使用该注意力模块且加入平滑损失的算法。实验结果如表 1 所示。引入平滑损失后,SRCNN 和 SRResNet 模型的峰值信噪比(Peak Signal to Noise Ratio,PSNR)值 和 结 构 相 似 性(Structural Similarity,SSIM)值总体比之前有所提高,其中 SRResNet 模型的改进较多,PSNR 的平均值增益有 0.103 dB。由此可得,本节对于算法网络的损失函数的改进加强了对图像中信息的利用,增进了其超分辨效果。由于此改进策略在 SRResNet 模型上的表现效果较好,本文继续在该网络上深入分析所提出改进的作用。图 3 展示了 Fl

24、ickr1024 数据集的图像块0543_001 的两张立体注意力图的灰度图可视化。图 3(a)由无平滑损失的网络生成,图 3(b)由加入平滑损失的网络生成。从图 3 的红框区域可以看出,图 3(a)存在梯度不均匀的情况,不加平滑损失的网络梯度较大。而加入该项损失后,得出的 图 3(b)的梯度明显更加均匀,这使得重建后的立体图像更加光滑,具有更好的质量。梯度流向图可以清晰直观地呈现模型网络中的梯度流向,反映出梯度下降的情况,对于调整模型网络具有重要意义。图 4 展示了训练样本图像块 0001_001 在两个网络中的梯度流向图。其中,表 1 改进前后 SRCNN 和 SRResNet 模型的 4

25、 倍超分辨效果对比模型KITTI 2012KITTI 2015MiddleburyAveragePSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIMSRCNN_SA25.4960.85324.6450.83827.4590.87025.8670.854SRCNN_SA_smooth25.5050.85324.6390.83827.5290.87125.8910.854SRResNet_SA26.1110.86825.2760.85628.2310.88826.5390.871SRResNet_SA_smooth26.1480.86825.3390.85728.4210.89026.

26、6360.87234电视技术 第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计图 4(a)是不使用平滑损失生成的流向图,图 4(b)是加入平滑损失生成的流向图。观察改进前后生成的流向图可以看到,加入平滑损失后,梯度显著减小了,说明其立体注意力图更加光滑,证明平滑损失对于图像质量提升有重要的作用。(a)改进前 (b)改进后图3 改进前后训练样本0543_001的注意力图的灰度图可视化 80 70 60 50 40 30 20 10 001020304050607080(a)改进前 80 70 60 50 40 30 20 10 001020304050607080(b

27、)改进后图 4 改进前后训练样本 0001_001 的梯度流向图本文还分别计算了改进前后 SRResNet 网络的L1loss,以探究此项改进对梯度定量值的影响。随机选择训练集中的 10 个图像块,分别计算它们在未引入平滑损失和引入平滑损失后训练时的 L1loss,结果记录在表 2 中。如表 2 数据显示,加入平滑损失后,L1loss 的数值均比之前减小了,加快了收敛的速度。由于 L1loss 容易受极端值影响,导致梯度方向偏离正常水平的点,因此可以用来衡量图像的光滑程度。改进后 L1loss 变小,也说明加入平滑损失可以赋予梯度更合理的惩罚权重,视觉效果也会更加自然。表 2 改进前后 SRR

28、esNet 网络处理部分图像块的 L1loss图像块未引入平滑损失的 L1loss 引入平滑损失后的 L1loss0001_0015 585.6095 381.7230004_0548 205.9957 871.3640008_0567 610.3567 347.8510012_0908 518.8688 303.0530017_0015 618.2835 609.0050018_0338 108.9996 898.3660034_0218 327.9997 923.0050541_0197 579.5457 328.2550543_0017 419.2447 168.5830547_0017

29、 505.8296 776.696通过上述对加入了注意力机制的 SRResNet 模型上平滑损失的影响的深入分析,可以证明加入平滑损失后,立体注意力图的光滑性会增强。当然,由于映射关系,重建后的立体图像也会更加光滑,这是提升图像质量的一个部分。同时,平滑损失函数相当于训练的正则项,加入之后可以有效地避免一些过拟合问题的产生。因此,平滑损失函数的加入是有必要的,本文对于该基于立体注意力机制的立体图像超算法损失函数部分的改进具有一定的有效性和必要性。3 结 语本文提出了一种基于立体注意力机制的立体图像超分辨重建改进算法。通过在损失函数中引入平滑项,实验验证了改进前后高分辨率立体图像质量得到了明显的

30、提高。同时,现有的立体图像数据集总体质量处于弱势,限制了立体图像的重建算法发挥更好的作用。未来的研究中可以考虑构建图像数量更多、场景更为丰富、图像质量更好的立体图像数据集,训练出更高效的立体图像超分辨模型。参考文献:1 SONG W,CHOI S,JEONG S,et al.Stereoscopic image 电视技术 第 47 卷第 1 期(总第 566 期)35PARTS&DESIGN器件与设计super-resolution with stereo consistent featureC/Proceedings of the AAAI Conference on Artificial

31、Intelligence,2020.2 XIE W,ZHANG J,LU Z,et al.Non-local nested residual attention network for stereo image super-resolution C/IEEE International Conference on Acoustics,Speech and Signal Processing,2020.3 XU Q,WANG L,WANG Y,et al.Deep bilateral learning for stereo image super-resolution J.IEEE Signal

32、 Processing Letters,2021,28:613-617.4 JEON D S,BAEK S H,CHOI I,et al.Enhancing the spatial resolution of stereo images using a parallax priorC/IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018.5 WANG L,WANG Y,LIANG Z,et al.Learning parallax attention for stereo image super-resoluti

33、on C/IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019.6 ZHANG Z,PENG B,LEI J,et al.Recurrent interaction network for stereoscopic image super-resolutionJ.IEEE Transactions on Circuits and Systems for Video Technology,Early Access,2022,doi:10.1109/TCSVT.2022.3220412.7 YING X,WANG Y

34、,WANG L,et al.A stereo attention module for stereo image super-resolutionJ.IEEE Signal Processing Letters,2020,27(99):496-500.8 DONG C,LOY C C,HE K,et al.Image super-resolution using deep convolutional networks J.IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,38(2):295307.9 ZHU

35、X,GUO K,FANG H,et al.Cross view capture for stereo image super-resolutionJ.IEEE Transactions on Multimedia,2022,24:3074-3086.10 DAI Q,LI J,YI Q,et al.Feedback network for mutually boosted stereo image super-resolution and disparity estimationEB/OL.2022-12-10.https:/arxiv.org/pdf/2106.00985.pdf.11 WA

36、NG Y,WANG L,YANG J,et al.Flickr1024:a large-scale dataset for stereo image super-resolution C/IEEE/CVF International Conference on Computer Vision Workshop,2019.12 SCHARSTEIN D,HIRSCHMLLER H,KITAJIMA Y,et al.High-resolution stereo datasets with subpixel-accurate ground truth C/German Conference on P

37、attern Recognition,2014.13 GEIGER A,LENZ P,URTASUN R.Are we ready for autonomous driving?The KITTI vision benchmark suite C/IEEE Conference on Computer Vision&Pattern Recognition,2012.14 MENZE M,GEIGER A.Object scene flow for autonomous vehicles C/IEEE Conference on Computer Vision and Pattern Recog

38、nition,2015.编辑:张玉聪构建基于文本语义分类的广播电视分类模型,通过借助 FastText 模型在文本分类上的快速准确的优势,以 TextRank 算法提取的语义关键字为基础,结合 BM25 算法进行文档语义相关性计算,最后通过实验对提出的基于文本语义分类模型进行仿真。实验结果表明,改进后的方式能够有效提升广播电视分类系统的分类准确性。参考文献:1 罗婉丽,张磊.结合拓扑势与 TextRank 算法的关键词提取方法 J.计算机应用与软件,2022,39(1):334-338.2 朱玉佳.基于 TextRank 算法的联合打分自动文本摘要生成 D.曲阜:曲阜师范大学,2021.3 汪家成,薛涛.基于 FastText 和关键句提取的中文长文本分类 J.计算机系统应用,2021,30(8):213-218.4 孙艳.基于 fastText 的短文本分类方法及其应用研究 D.秦皇岛:燕山大学,2021.5 唐万成.新形势下省级广播电视广告监管的可行性技术分析 J.广播与电视技术,2020,47(10):98-104.6 李楠,陶宏才.一种新的融合 BM25 与文本特征的新闻摘要算法 J.成都信息工程大学学报,2018,33(2):113-118.编辑:张玉聪(上接第 29 页)

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 品牌综合 > 临存文档

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服