收藏 分销(赏)

基于Transformer和多尺度CNN的图像去模糊.pdf

上传人:自信****多点 文档编号:2077316 上传时间:2024-05-15 格式:PDF 页数:9 大小:2.30MB
下载 相关 举报
基于Transformer和多尺度CNN的图像去模糊.pdf_第1页
第1页 / 共9页
基于Transformer和多尺度CNN的图像去模糊.pdf_第2页
第2页 / 共9页
基于Transformer和多尺度CNN的图像去模糊.pdf_第3页
第3页 / 共9页
基于Transformer和多尺度CNN的图像去模糊.pdf_第4页
第4页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 49卷 第 9期2023年 9月Computer Engineering 计算机工程基于 Transformer和多尺度 CNN的图像去模糊李现国1,2,李滨1(1.天津工业大学 电子与信息工程学院,天津 300387;2.天津市光电检测技术与系统重点实验室,天津 300387)摘要:卷积神经网络(CNN)单独应用于图像去模糊时感受野受限,Transformer能有效缓解这一问题但计算复杂度随输入图像空间分辨率的增加呈 2次方增长。为此,提出一种基于 Transformer和多尺度 CNN 的图像去模糊网络(T-MIMO-UNet)。利用多尺度 CNN 提取空间特征,并嵌入 Transfo

2、rmer全局特性捕获远程像素信息。设计局部增强 Transformer模块、局部多头自注意力计算网络和增强前馈网络,采用窗口的方式进行局部逐块多头自注意力计算,通过增加深度可分离卷积层,加强不同窗口之间的信息交互。在 GoPro 测试数据集上的实验结果表明,T-MIMO-UNet的峰值信噪比相比于 MIMO-UNet、DeepDeblur、DeblurGAN、SRN网络分别提升了 0.39 dB、2.89 dB、3.42 dB、1.86 dB,参数量相比于 MPRNet减少了 1/2,能有效解决动态场景下的图像模糊问题。关键词:图像去模糊;多尺度卷积神经网络;Transformer编码器;多头

3、自注意力;增强前馈网络开放科学(资源服务)标志码(OSID):中文引用格式:李现国,李滨.基于Transformer和多尺度CNN的图像去模糊 J.计算机工程,2023,49(9):226-233,245.英文引用格式:LI X G,LI B.Image deblurring based on Transformer and multi-scale CNN J.Computer Engineering,2023,49(9):226-233,245.Image Deblurring Based on Transformer and Multi-scale CNNLI Xianguo1,2,LI

4、Bin1(1.School of Electronics and Information Engineering,Tiangong University,Tianjin 300387,China;2.Tianjin Key Laboratory of Photoelectric Detection Technology and System,Tianjin 300387,China)【Abstract】Convolutional Neural Network(CNN)has limitations when applied solely to image deblurring tasks wi

5、th restricted receptive fields.Transformer can effectively mitigate these limitations.However,the computational complexity increases quadratically as the spatial resolution of the input image increases.Therefore,this study proposes an image deblurring network based on Transformer and multi-scale CNN

6、 called T-MIMO-UNet.The multi-scale CNN is used to extract spatial features while the global feature of the Transformer is employed to capture remote pixel information.The local enhanced Transformer module,local Multi-Head Self-Attention(MHSA)computing network,and Enhanced Feed-Forward Network(EFFN)

7、are designed.The block-by-block MHSA computation is performed using a windowing approach.The information interaction between different windows is enhanced by increasing the depth of the separable convolution layer.The results of the experiment conducted using the GoPro test dataset demonstrate that

8、the Peak Signal-to-Noise Ratio(PSNR)of the T-MIMO-UNet increases by 0.39 dB,2.89 dB,3.42 dB,and 1.86 dB compared to the MIMO-UNet,DeepDeblur,DeblurGAN,and SRN networks,respectively.Additionally,the number of parameters is reduced by 1/2 compared to MPRNet.These findings prove that the T-MIMO-UNet ef

9、fectively addresses the challenge of image blurring in dynamic scenes.【Key words】image deblurring;multi-scale Convolutional Neural Network(CNN);Transformer encoder;Multi-Head Self-Attention(MHSA);Enhanced Feed-Forward Network(EFFN)DOI:10.19678/j.issn.1000-3428.00655130概述图像去模糊是利用图像处理技术将模糊图像恢复成有清晰边缘结构

10、和丰富细节的图像。由于造成图像模糊的原因很多,因此图像去模糊问题是一个有多个未知解的高度不适定问题。在图像去模糊任务中,传统方法多数是将其建模为模糊核估计问题进行求解,但在现实世界中模糊核是未知的且非常基金项目:天津市重点研发计划科技支撑重点项目(18YFZCGX00930)。作者简介:李现国(1981),男,教授、博士,主研方向为智能信息处理、光电检测;李 滨,硕士研究生。收稿日期:2022-08-15 修回日期:2022-10-19 Email:图形图像处理文章编号:1000-3428(2023)09-0226-08 文献标志码:A 中图分类号:TP391第 49卷 第 9期李现国,李滨:

11、基于 Transformer和多尺度 CNN的图像去模糊复杂,最终会因为模糊核估计的不准确而导致模糊图像的恢复效果不佳。传统图像去模糊方法主要有基于最大后验概率(Maximum A Posterior,MAP)1-3、基于变分贝叶斯(Variational Bayesian,VB)4-5和基于 LMS自适应算法6。通过将原始图像与模糊核的联合后验概率在图像空间边际化,然后求解模糊核的边际分布,进而实现图像盲复原。传统图像去模糊研究通常集中于解决简单的相机抖动或者目标运动产生的模糊问题,仅在特定模糊图像上具有良好的效果。近年来,学者们对基于卷积神经网络(Convolutional Neural

12、Network,CNN)的图像去模糊方法进行了广泛研究7-9。早期,基于 CNN 的图像去模糊方法将CNN 作为模糊核估计器,构建基于 CNN 的模糊核估计和基于核反卷积的两阶段图像去模糊框架10-11。JIAN 等11提出使用 CNN 估计运动模糊的空间变化核,去除非均匀模糊,但由于模糊特性复杂,模糊核估计方法在实际场景中不能很好地恢复模糊图像。目前,基于 CNN 的图像去模糊方法旨在以端到端方式直接学习模糊-清晰图像对之间的复杂关系12-14。KUPYN 等12提出 DeblurGAN,基于 GAN 和内容损失,以单尺度的方式实现图像去模糊。尽管单尺度在去模糊效率上表现良好,但由于未能提取

13、多种特征信息,导致去模糊性能和恢复图像细节上效果欠佳。NAH 等13基于 coarse-to-fine 策略,引入一种用于 动 态 场 景 去 模 糊 的 深 度 多 尺 度 CNN 网 络DeepDeblur,在不估计任何模糊核的情况下提取图像多尺度信息,直接从模糊图像中恢复清晰图像。ZHAO 等14提出一种轻量化和实时的无监督图像盲去模糊方法 FCL-GAN,既没有图像域限制,也没有图 像 分 辨 率 限 制,保 证 了 轻 量 化 和 性 能 优 势。ZHAO 等15提出一种用于盲运动去模糊的通用无监督颜色保留网络 CRNet,易于扩展到其他受色彩影响的畸变任务,同时引入模糊偏移估计和自

14、适应模糊校正,改进去模糊任务。虽然 CNN 在单图像去模糊领域取得了良好的效果,但存在以下问题:1)卷积算子的感受野有限,难以捕获到远程像素的信息,若要增加感受野,则只能增加网络深度,然而会造成计算量过大和信息丢失问题;2)卷积核在推理时有静态权值,不能灵活地适应输入内容。受 Transformer16-17 具有全局信息建模特性的启发,DOSOVITSKIY等18 提出视觉Transformer(Vision Transformer,ViT)来执行图像识别任务,以具有位置嵌入的 2D 图像块为输入,在大数据集上进行预训练,取得了与基于 CNN 的方法相当的性能。TOUVRON 等19将 Tr

15、ansformer 与蒸馏方法相结合,提出一种高效的图像 Transformer(DeiT),可在中型数据集上训练 Transformer,具有较好的鲁棒性。受UNet多尺度单图像去模糊 20 和 Transformer 16,21-22 工作的启发,本文将 Transformer 引入 CNN 网络,但直接将 Transformer 嵌入 CNN 网络存在以下问题:1)嵌入后应用 CNN 网络的训练策略因 Transformer参数量过多导致无法训练;2)应用局部方式计算多头自注意力(Multi-Head Self-Attention,MHSA)会造成局部窗口之间缺少信息联系且去模糊效果差。

16、针对上述问题,本文提出一种基于 Transformer和多尺度 CNN 的图像去模糊网络(T-MIMO-UNet)。利用CNN 网络提取空间特征,同时对输入图像进行下采样得到多尺度的特征图,通过将多尺度特征相互融合和补充,有效利用每个尺度的信息,更好地处理各种图像模糊问题。设计一种局部增强 Transformer模块(Enhanced Local Transformer Module,EL-TM),能够利用 Transformer的全局特性有效获取全局信息。当每个尺度的特征输入到 EL-TM 中进行全局建模时,针对输入图像尺寸过大的问题,设计一种局部多头自注意力计算网络(Local Multi

17、-Head Self-Attention Network,L-MHSAN),采用窗口的方式在局部逐块计算 MHSA,以解决图像尺寸过大导致的训练难度增加 的 问 题。针 对 在 L-MHSAN 中 划 分 窗 口 计 算MHSA 后跨窗口的信息交互消失问题,设计一种增强前馈网络(Enhanced Feed-Forward Network,EFFN),通过增加深度可分离卷积层,促进不同窗口之间的信息交互,有效获取全局信息,提升图像清晰度和计算效率。1图像去模糊网络本文提出的 T-MIMO-UNet结构如图 1所示。该网络主要由多尺度输入编码器、EL-TM、非对称特征融合(Asymmetric F

18、eature Fusion,AFF)模块和多尺度输出解码器组成,其中,编码器采用两个编码块(Encoder Block,EB),解 码 器 采 用 3 个 解 码 块(Decoder Block,DB),EL-TM 采 用 12 个 局 部 增 强Transformer 层(Enhanced Local Transformer Layer,EL-TL)。T-MIMO-UNet 建立在基于编码器-解码器的单一 UNet 架构上,可充分利用 CNN 从图像中提取的多尺度空间特征。此外,为了捕获全局依赖关系,利用 Transformer编码器对全局空间进行建模,并基于EL-TM 进行局部窗口之间的信

19、息交互,实现多尺度去模糊。2272023年 9月 15日Computer Engineering 计算机工程1.1多尺度输入编码器多尺度架构可以有效地处理不同程度的图像模糊23,同时各种基于 CNN 的去模糊方法13,24-25也都采用将不同尺度的模糊图像作为网络的基本输入。在 T-MIMO-UNet的编码器中,通过编码块将不同尺度的模糊图像作为输入,其中,EB1由卷积层、残差块构成,EB2由卷积层、特征融合模块(FAM)20和残差块 构 成,已 有 实 验20证 明 了 FAM 能 够 提 高 模 型性能。使用多尺度策略作为单个 U-Net的输入,将原始尺度的模糊图像B1进行2次1/2下采样

20、,得到另外2个尺度的模糊图像 B2和 B3。B1和 B2尺度的模糊图像通过 EB1和 EB2提取特征,B3尺度的模糊图像在经过预处理后输入Transformer架构EL-TM进行全局特征建模。此外,除了在每个尺度的编码器或EL-TM中提取特征外,对于 B2和 B3尺度,还会分别从上面尺度的模糊图像中提取缩小的特征,然后将这 2种特征融合,2种信息相互补充,更有助于处理图像模糊问题。在每个尺度的编码器或 Transformer模块中提取特 征 时,使 用 浅 卷 积 模 块(Shallow Convolution Module,SCM)20对下采样图像 B2和 B3进行特征提取处理。SCM 使用

21、 2个堆叠的 33和 11的卷积层,然后在最后一个 11卷积层中将提取的特征与输入的当前尺度图像连接起来,再使用一个 11 卷积层进一步细化连接,经过 SCM 的输出用Zkout表示。对于原始尺度的模糊图像 B1,没有使用 SCM,而是直接输入编码块 EB1。对于使用了 SCM 的模糊图像 B2,将 SCM 的输出Z2out与 B1尺度的编码器输出E1out使用 FAM 进行融合,在融合前使用 stride 取值为 2的卷积层以保证 2个特征具有相同的尺寸,最后使用 1个残差块继续细化特征。对于 B3尺度的模糊图像,将此时 SCM 的输出Z3out与 B2尺度的编码器输出E2out进行特征融合

22、,此时的特征图经过多次浅层特征提取和前 2个尺度的卷积特征提取后,每个像素具备了更深的感受野,这时输入 EL-TM 利用 Transformer 的全局特征信息建模能力,进一步学习与全局感受野的远程相关性,之后将提取的全局特征输入残差块。1.2局部增强 Transformer模块自 Transformer架构16被应用于深度学习领域以来,其全局信息建模特性引起了学者们的广泛关注。CNN作为视觉领域的通用主干网络,在图像去模糊任务中应用广泛,但CNN卷积算子存在感受野有限的问题,随着网络层数的不断加深,CNN这一问题体现的越发明显,Transformer的全局性可以缓解这一缺陷。在处理模糊图像时

23、,Transformer往往因数据集中过大的图像尺寸而造成计算复杂度过高,最终使去模糊的视觉任务失败。为了增强 Transformer架构在去模糊领域的通用性,设计一种局部增强 Transformer模块,如图 2所示。局部增强 Transformer模块由多个局部增强 Transformer层构成。每个局部增强 Transformer层由L-MHSAN和EFFN构成。在 T-MIMO-UNet结构中,将 B1和 B2尺度提取的特征与 B3尺度融合,然后将所获得的特征图I RN D通过 EL-TM 进一步进行特征提取,其中,N表示输入分辨率H W,H 表示图像高度,W 表示图像宽度,D表示输入

24、通道数。B3尺度的图像特征在与其他尺度特征相加并输入局部增强 Transformer模块计算 MHSA 前,需要经过浅卷积模块的处理,处理后的图像与 B2尺度的编码器输出E2out相融合。由于图像去模糊数据集的大尺寸特性导致计算 MHSA 时计算量过大,大大增加了 训 练 难 度。为 了 解 决 这 个 问 题,在 局 部 增 强Transformer层中设计了一种局部多头自注意力计算网络。图 1T-MIMO-UNet结构Fig.1Structure of the T-MIMO-UNet228第 49卷 第 9期李现国,李滨:基于 Transformer和多尺度 CNN的图像去模糊局部多头自注

25、意力计算网络结构如图 3 所示。首先读取融合特征的维度并进行记录,由于融合特征仍然与图像维度一致,即(Y,H,W,D),其中,Y 表示图像批处理大小。使用 Flatten 操作将图像的宽度、高度等展开成一维数据的形式,即(Y,D,HW),之后将展开后的数据形式转换为(Y,HW,D),便可将融合后的图像特征输入局部增强 Transformer层计算 MHSA。图像特征输入局部增强 Transformer层后,局部多头自注意力计算网络将特征图I RN D划分成P 个不重叠的窗口I I1 I2 IP,窗口个数 P 的计算公式如式(1)所示。在每个窗口中独立计算多头自注意力。针对一个局部窗口特征图X

26、RM2 D,Query、Key、Value 矩阵 Q、K、V 计算公式如式(2)所示。基于局部窗口的自注意力计算公式如式(3)所示。将AQKV并行计算 C 次并连接,得到多头自注意力计算结果AQKV,然后经过窗口特征合并操作重构得到中间特征fM,计算公式如式(4)所示。P=H WM2(1)Q=XPQK=XPKV=XPV(2)AQKV=Softmax(QKTd)V(3)fM=View(Window-reverse(AQKVC)(4)其中:M2表示被划分的窗口尺寸;PQ、PK、PV分别表示在不同窗口共享的投影矩阵;d表示DC,C为多头自注意力的头数量;View 表示重构操作;Window-reve

27、rse表示窗口特征合并操作;fM特征维度为(Y,H,W,D)。将多头自注意力在局部不重叠的窗口中分别计算时,不同窗口之间信息交互会消失,跨窗口之间没有信息交流会限制建模能力。为了解决这个问题,在 局 部 增 强 Transformer 层 中 的 前 馈 网 络(Feed-Forward Network,FFN)结构上进行改进,设计一种增 强 前 馈 网 络,在 2 个 全 连 接 层 间 增 加 了 2 个 深度 可 分离卷积层(Depthwise separable Convolution,DepthConv),并合理利用跳跃连接与输入特征建立联系。增强前馈网络结构如图 4所示。首先,对于

28、输入的中间特征fM,经过第 1 个全连接层,再经过正则化和激活操作输入第 1 个深度可分离卷积层后以残差的方式进行跳跃连接得到中间特征计算的第 1 个阶段的计算结果,计算过程可表示如下:fM1=fM+(LN(DepthConv(fM)(5)其中:LN表示全连接操作;DepthConv表示深度可分离卷积操作。然后,fM1经过正则化操作和第 2 个深度可分离卷积层,通过残差相加得到中间特征计算的第 2 个阶段的计算结果fM2,fM、fM1和fM2跳跃连接得到中间特征计算的第 3个阶段的计算结果fM3,即:图 2局部增强 Transformer模块结构Fig.2Structure of the en

29、hanced local Transformer module图 3局部多头自注意力计算网络结构Fig.3Structure of the local multi-head self-attention network2292023年 9月 15日Computer Engineering 计算机工程fM3=fM+(fM1+(DepthConv(fM1)(6)最后,fM3经过第 2个全连接层和正则化、卷积操作后与fI相加得到 EL-TL模块最终提取的特征fF。深度可分离卷积不仅能增强局部性,而且能增加窗口之间特征的局部信息交互26,同时相对于普通卷积而言,深度可分离卷积能有效减少模型的参数量。1

30、.3非对称特征融合模块使用 AFF模块20将编码器中提取的特征进行融合。特征融合策略没有使用对称融合27及只进行相邻 2个尺度的特征融合13,而是将 3个尺度的特征再次进行融合输入至 DB1和 DB2。1.4多尺度输出解码器使用上采样或下采样操作将不同尺度的特征输入 AFF 模块进行特征融合后,将这些特征输入网络解码端,对每个尺寸的图像进行重建。解码器依然采用单个 U 形网络模拟多级联 U 型网络输出不同尺度的去模糊图像。解码块均由卷积层和残差块构成。由于解码块的输出是一个特征图而不是一幅图像,因此在重建每一层图像时,使用一个卷积层作为生成图像的映射函数。在实验过程中,因无需 B2和B3尺度的

31、去模糊图像 S2和 S3,本文模型只将原始 B1尺度进行去模糊,输出 S1在后面的实验中进行对比。2实验与结果分析网 络 模 型 在 训 练 时 使 用 Intel Xeon Silver 4210 CPU 2.20 GHz 硬件平台,内存为 93.1 GB,GTX1080Ti 11 GB。软件环境为 Ubuntu18.04 操作系统,深度学习环境为 PyTorch1.4.0。2.1数据集和实现细节使用 GoPro13训练数据集来训练网络,训练数据 集 中 包 括 2 103 对 模 糊 和 清 晰 的 图 像 对;使 用GoPro 测试数据集来测试网络,测试数据集中包括1 111 对图像对。

32、此外,在 RealBlur28真实场景数据集中测试了模型的有效性,RealBlur 测试数据集包含 RealBlur-R 和 RealBlur-J 这 2 个子数据集,每个数据集包括 980对图像对。网络训练的初始学习率为 10-4,之后每迭代训练500轮就下降 50%。对于每次迭代训练,都将图像随机剪切为256 256像素。为了使模型充分收敛,在GoPro 训练数据集中进行 3 000 轮的迭代训练,以使模型收敛。2.2损失函数在优化网络参数时,使用多尺度内容损失函数13,定义如下:Lcont=K=1K1tK|SK-GK|(7)其中:K表示尺度;SK和GK分别表示模型预测的清晰图像和真实清晰

33、图像;使用每一轮计算的损失次数tK进行归一化处理。研究表明:增加辅助损失项可以提高模型性能,且最小化特征空间中输入和输出之间距离的辅助损失项已在图像恢复任务中得到广泛应用,并取得了良好的效果29。去模糊主要是恢复图像高频分量的特性,使用多尺度频率重建(Multi-Scale Frequency Reconstruction,MSFR)损 失 函 数20作 为 辅 助 损 失项。尺度频率重建损失函数能够测量频域中多尺度真实图像和去模糊图像之间的 L1距离,定义如下:LMSFR=K=1K1tK|FT(SK)-FT(GK)|(8)其中:FT表示快速傅里叶变换。网络训练的损失函数可表示如下:L=Lco

34、nt+0.01LMSFR(9)2.3去模糊定量效果分析将 T-MIMO-UNet与 DeblurGAN12、DeepDeblur13、FCL-GAN14、CRNet15、MIMO-UNet20、MIMO-UNet+20、PSS-NSC24、SRN25、DMPHN30、MPRNet31、DeblurGAN-v232等经典的去模糊网络进行比较,定量地分析其性能。为了实现计算复杂度和去模糊精度之间的权衡,同时提出 T-MIMO-UNet 的变体,即T-MIMO-UNet+和 T-MIMO-UNet+,其中,T-MIMO-UNet 中使用 10 个残差块和 12 个 EL-TM,T-MIMO-UNet

35、+中使用 20 个残差块和 6 个 EL-TM,T-MIMO-UNet+是在 T-MIMO-UNet+的基础上将 EFFN 中的深度可分离卷积替换成普通卷积。在 GoPro测试数据集上与其他网络的测试结果比较如表 1 所示,其中,粗体表示每列最优值,下划线表示每列次优值。由 表 1 可 以 看 出:与 MIMO-UNet 基 础 网 络 相 比,T-MIMO-UNet 及 其 2 个 变 体 网 络 的 峰 值 信 噪 比(Peak Signal-to-Noise Ratio,PSNR)分别提升了 0.39 dB、0.54 dB、0.66 dB;与 DeepDeblur、DeblurGAN、S

36、RN图 4增强前馈网络结构Fig.4Structure of the enhanced feed-forward network230第 49卷 第 9期李现国,李滨:基于 Transformer和多尺度 CNN的图像去模糊网 络 相 比,T-MIMO-UNet 的 PSNR 分 别 提 升 了2.89 dB、3.42 dB、1.86 dB;特别是在平均 SSIM 指标上,T-MIMO-UNet 及其变体网络明显优于对比网络;与 MPRNet网络相比,T-MIMO-UNet及其变体网络尽管 PSNR 略有欠缺,但在模型参数量和去模糊处理时间上有更好的表现,T-MIMO-UNet参数量减少 为

37、MPRNet 的 1/2,处 理 时 间 减 少 为 MPRNet 的1/8。为了验证多尺度策略去模糊性能的优越性,与基 于 CNN 的 单 尺 度 去 模 糊 网 络 Deblur-GAN12、SDWNet33和 基 于 双 尺 度 策 略 的 去 模 糊 网 络DeblurGAN-v232进行比较。在 GoPro测试数据集上单尺度、双尺度与多尺度定量性能比较结果如表 2所示。由表 2 可以看出,多尺度特征提取方式优于单尺度和双尺度特征提取方式,验证了多尺度信息提取的优势。为了验证 T-MIMO-UNet 在真实场景中的有效性,在 RealBlur测试数据集28上将 T-MIMO-UNet与

38、DeblurGAN12、DeepDeblur13、FCL-GAN14、MIMO-UNet20、MIMO-UNet+20、SRN25、DMPHN30、MPRNet31、DeblurGAN-v232等经典的去模糊网络进行比较,平均 PSNR和 SSIM 定量比较结果如表 3所示,其中,粗体表示每列最优值,下划线表示每列次优值,可以看出 T-MIMO-UNet 及其变体网络仍然取得了比较好的效果,PSNR和 SSIM 值非常接近 MPRNet。2.4去模糊定性结果分析和消融实验对 T-MIMO-UNet 的图像去模糊效果进行主观分析,并将其与其他网络的图像去模糊效果进行比较,如图 5 所示,为了充分

39、展示去模糊效果,放大了图中的细节。由图 5 可以看出,与其他网络的去模糊结果相比,T-MIMO-UNet获取的去模糊图像纹理更清晰,视觉效果更好。为了证明增强前馈网络中使用深度可分离卷积对于降低网络模型参数量的有效性,在 T-MIMO-UNet 中将深度可分离卷积替换为普通卷积进行性能对比实验,实验结果如表 4 所示。由表 4 可以看出,对于 T-MIMO-UNet,在增强前馈网络中使用传统卷积时,相比使用深度可分离卷积的网络模型的PSNR 提升了 0.09%,参数量提升了 5.6%。在参数量上使用深度分离卷积的网络模型具备较大的优势,满足部分场景中需要模型规模小、运行速度快的需求。此外,使用

40、深度分离卷积的网络模型能够增加窗口之间特征的局部信息交互。因此,根据综合性能和模型参数量,在 T-MIMO-UNet模型中使用深度可分离卷积。为了验证所设计的 EL-TM 的有效性,并验证所使用 EL-TM 中 EL-TL数量的最优选择,针对 EL-TM中 EL-TL 数量在 GoPro 测试数据集上进行消融实验,实验结果如表 5所示。当 EL-TL数量为 0时表示没有使用本文提出的 EL-TM 时的网络模型性能,由表 1在 GoPro测试数据集上的测试结果比较 Table 1Comparison of test results on the GoPro test dataset网络Deblu

41、rGANDeepDeblurFCL-GANCRNetMIMO-UNetMIMO-UNet+PSS-NSCSRNDMPHNMPRNetDeblurGAN-v2T-MIMO-UNetT-MIMO-UNet+T-MIMO-UNet+PSNR/dB28.7029.2324.8428.3131.7332.4530.9230.2631.2032.6629.5532.1232.2732.39SSIM0.9580.9160.7710.9050.9510.9570.9420.9340.9450.9590.9340.9660.9670.968处理时间/s0.9784.3300.0110.0130.0331.600

42、2.0350.4241.9760.3500.2540.3130.190参数量/10611.7024.566.8016.106.8021.7020.1010.1014.1014.60表 2在 GoPro测试数据集上单尺度、双尺度与多尺度定量性能比较 Table 2Comparison of quantitative performance among single-scale,double-scale and multi-scale on the GoPro test dataset尺度类型单尺度单尺度双尺度多尺度网络Deblur-GANSDWNetDeblurGAN-v2T-MIMO-UNet

43、PSNR/dB28.7031.2629.5532.12SSIM0.9580.9660.9340.967表 3在 RealBlur测试数据集上的平均 PSNR和 SSIM Table 3Average PSNR and SSIM on the RealBlur test dataset网络DeblurGANDeepDeblurFCL-GANMIMO-UNetMIMO-UNet+SRNDMPHNMPRNetDeblurGAN-v2T-MIMO-UNetT-MIMO-UNet+T-MIMO-UNet+RealBlur-RPSNR/dB33.7932.5128.3735.4735.5435.6635.

44、7035.9935.2635.4435.6735.72SSIM0.9030.8410.6630.9460.9470.9470.9480.9520.9440.9460.9470.947RealBlur-JPSNR/dB27.9727.8725.3527.7627.6328.5628.4228.7028.7028.1428.6028.69SSIM0.8340.8270.7360.8360.8370.8670.8600.8730.8660.8530.8620.8672312023年 9月 15日Computer Engineering 计算机工程表 5 可以看出,加入了 EL-TM 的网络模型相比未

45、加入 EL-TM 的网络模型在性能上有了明显的提升,且随着 EL-TL 数量的增加性能逐渐提升。但在 EL-TL数量大于 12 后,由于网络模型的复杂度提升,在本文设定的硬件条件下难以进行训练,因此选择 EL-TL数量为 12与 CNN 结合作为最终模型。需要说明的是:若硬件条件允许,则可继续增加网络模型中的EL-TL数量,从而取得更好的 PSNR和 SSIM 性能。3结束语本 文 提 出 一 个 新 的 去 模 糊 网 络 T-MIMO-UNet,将 Transformer 整合到基于 CNN 的 UNet,实现 动 态 场 景 下 的 单 图 像 盲 去 模 糊,不 仅 继 承 了CNN

46、在建模局部上下文信息方面的优势,而且还利 用 了 Transformer 学 习 全 局 语 义 相 关 性。在GoPro 和 RealBlur 测试数据集上的实验结果验证了T-MIMO-UNet 的 有 效 性。后 续 将 继 续 对 视 觉Transformer 进行研究,探索结合多尺度 CNN 与视觉 Transformer 的网络模型,进一步提升其在动态场景下的去模糊性能。参考文献 1 LOU Y F,BERTOZZI A L,SOATTO S.Direct sparse deblurringJ.Journal of Mathematical Imaging and 图 5在 GoPr

47、o测试数据集上的去模糊效果Fig.5Deblurring effects on the GoPro test dataset表 4深度可分离卷积与普通卷积的性能对比 Table 4Performance comparison between depthwise separable convolution and ordinary convolution卷积类型普通卷积深度可分离卷积PSNR/dB32.1532.12SSIM0.9660.966参数量/10610.710.1表 5在 GoPro测试数据集上的 EL-TM 消融实验结果 Table 5Ablation experimental re

48、sults of EL-TM on the GoPro test datasetEL-TL数量/层0481012PSNR/dB31.7331.8031.8731.9232.12SSIM0.9510.9570.9640.9640.966232第 49卷 第 9期李现国,李滨:基于 Transformer和多尺度 CNN的图像去模糊Vision,2011,39(1):1-12.2 KRISHNAN D,TAY T,FERGUS R.Blind deconvolution using a normalized sparsity measure C/Proceedings of CVPR11.Wash

49、ington D.C.,USA:IEEE Press,2011:233-240.3 KOTERA J,ROUBEK F,MILANFAR P.Blind deconvolution using alternating maximum a posteriori estimation with heavy-tailed priors C/Proceedings of International Conference on Computer Analysis of Images and Patterns.Berlin,Germany:Springer,2013:59-66.4 LEVIN A,WEI

50、SS Y,DURAND F,et al.Efficient marginal likelihood optimization in blind deconvolutionC/Proceedings of CVPR11.Washington D.C.,USA:IEEE Press,2011:2657-2664.5 BABACAN S D,MOLINA R,DO M N,et al.Bayesian blind deconvolution with general sparse image priors C/Proceedings of European Conference on Compute

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服