收藏 分销(赏)

基于卷积神经网络和Transformer的高效图像超分辨率重建.pdf

上传人:自信****多点 文档编号:3419028 上传时间:2024-07-05 格式:PDF 页数:8 大小:1.63MB
下载 相关 举报
基于卷积神经网络和Transformer的高效图像超分辨率重建.pdf_第1页
第1页 / 共8页
基于卷积神经网络和Transformer的高效图像超分辨率重建.pdf_第2页
第2页 / 共8页
基于卷积神经网络和Transformer的高效图像超分辨率重建.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、41第 52 卷2024 年 4 月Vol.52 No.2Apr.2024云南电力技术YUNNAN ELECTRIC POWER基于卷积神经网络和Transformer的高效图像超分辨率重建李邦源1,杨家全2,3,薛若漪4,张晓宇4,汪航4,孙宏滨2(1.云南电网有限责任公司玉溪供电局,云南 玉溪 653100;2.西安交通大学人工智能学院,陕西 西安 710049;3.云南电网有限责任公司电力科学研究院,云南 昆明 650217;4.西安交通大学微电子学院,陕西 西安 710049)摘要:深度学习推动了图像超分辨率重建技术的显著进步,但复杂的操作导致计算和内存成本高昂,限制了其实际应用。为此

2、,提出了一种新颖的算法,融合了Transformer和卷积神经网络,同时采用膨胀卷积和深度可分离卷积技术。在五个基准数据集上的实验证明,所提EHN模型能够高效提取超分辨率特征,在更少参数和推理时间下实现与现有方法相当甚至更好的超分辨率效果。特别地,在2、3和4放大倍数下,EHN的推理时间仅为现有网络的18.4%、18.9%和20.3%,这一优势对于处理大量图像的场景至关重要,能够显著减少计算时间和资源消耗,提升整体效率。关键词:图像超分辨率;Transformer;卷积神经网络;膨胀卷积;深度可分离卷积Efficient Image Super-Resolution Reconstructio

3、n Based on Convolutional Neural Networks and TransformerLi Bangyuan1,Yang Jiaquan2,3,Xue Ruoyi4,Zhang Xiaoyu4,Wang Hang4,Sun Hongbin2(1.Yunnan Power Grid Limited Liability Company Yuxi Power Supply Bureau,Yuxi,Yunnan 653100,China;2.College of Artificial Intelligence,Xian Jiaotong University,Xian,Sha

4、anxi 710049,China;3.Power Science Research Institute of Yunnan Power Grid Co.,Ltd,Kunming,Yunnan 650217,China;4.School of Microelectronics,Xian Jiaotong University,Xian,Shaanxi 710049,China)Abstract:Deep learning has significantly advanced image super-resolution reconstruction techniques.However,the

5、 computational and memory costs associated with complex operations have limited their practical applications.To address this issue,a novel algorithm is proposed,which integrates Transformer and Convolutional Neural Networks(CNNs)while incorporating dilated convolutions and depthwise separable convol

6、utions.Experimental results on five benchmark datasets demonstrate that the proposed EHN model efficiently extracts super-resolution features,achieving comparable or even better super-resolution performance with fewer parameters and inference time compared to existing methods.Specifically,under 2,3,

7、and 4 magnification factors,the inference time of EHN is merely 18.4%,18.9%,and 20.3%of that of existing networks,respectively.This advantage is crucial for scenarios involving the processing of large volumes of images,significantly reducing computational time and resource consumption,thereby enhanc

8、ing overall efficiency.Key words:Image super-resolution;Transformer;Convolutional neural networks;Dilated convolution;Depthwise separable convolution中图分类号:TM74文献标识码:B文章编号:1006-7345(2024)02-0041-080前言单图像超分辨率作为计算机视觉领域中的一项关键任务,旨在通过算法手段将低分辨率图像恢复为高质量的高分辨率图像。超分辨率技术的重要性在于其能够恢复图像中的纹理细节,因此在实际应用中具有广泛的价值,如监控系统

9、的图像增强和智能相机的图像处理等1。近年来,随着深度学习技术的发展,基于卷积神经网络(CNN)的超分辨率方法取得了显著进展2-8,24-26。这些方法通过构建深度神经网络模型,学习从低分辨率图像到高分辨率图像的复杂映射关系。其中,SRCNN2是一 云南电网科技项目(YNKJXM20220023)42云南电力技术第 52 卷2024 年第 2 期个具有里程碑意义的模型,它采用三层卷积神经网络实现了端到端的超分辨率重建。随后,EDSR3通过加深和拓宽网络结构,进一步提升了超分辨率效果。尽管基于卷积神经网络的超分辨率方法取得了显著进展,但仍存在一些局限性。卷积神经网络主要关注图像的局部特征,受限于卷

10、积运算的有限核大小,难以有效捕获图像中的长距离依赖关系。因此,在超分辨率任务中,综合考虑局部和非局部信息对于提升网络性能具有重要意义。最近,随着 Transformer 架构9的兴起,基于该结构的图像超分辨率方法逐渐展现出其独特的优势10-12,27-28。Transformer 通过自注意力机制,能够捕捉图像中的全局依赖关系,并有效利用图像的自相似性属性。这种机制使得Transformer 能够克服卷积神经网络在捕获长距离依赖关系上的局限性,更好地恢复图像中的细节信息。在超分辨率任务中,Transformer能够综合考虑图像的局部和非局部信息,进一步提升网络性能。例如,SwinIR10等模型

11、采用了基于 Swin Transformer21的架构,通过构建多尺度特征金字塔,有效融合了不同尺度的信息,提升了超分辨率效果。然而,尽管基于Transformer 的超分辨率方法取得了显著进展,但仍面临一些挑战。例如,Transformer 的计算复杂度较高,特别是在处理高分辨率图像时,需要大量的计算资源和内存空间。因此,如何降低 Transformer 的计算复杂度并提升其在超分辨率任务中的性能,仍是当前研究的热点和难点。因此,结合卷积神经网络和 Transformer 的优势,构建一种高效的图像超分辨率重建算法成为一种可能的解决方案。通过集成卷积神经网络的局部特征提取能力和 Transf

12、ormer 的全局信息建模能力,可以实现对图像局部和全局信息的综合利用,从而进一步提升超分辨率性能。在 此 背 景 下,本 文 提 出 了 一 种 结 合Transformer 和卷积神经网络的高效图像超分辨率重建算法。该算法旨在充分利用卷积神经网络和 Transformer 的互补优势,实现对图像局部和全局信息的有效建模和融合。具体而言,本文算法通过构建混合网络结构,将卷积神经网络和 Transformer 进行有机结合,以实现对图像多层次特征的提取和融合。同时,本文还引入了膨胀卷积、深度可分离卷积等策略,以进一步提升算法的性能和稳定性。通过集成卷积神经网络和 Transformer,本文的

13、 EHN 模型能够提取更有效的超分辨率特征,从而在较少的参数和运行时间下实现更好的超分辨率性能。与现有方法相比,EHN 展现出了优越的性能和实用性,为图像超分辨率任务提供了一种新的解决方案。1算法设计1.1整体网络结构设计本文提出的 EHN(Efficient Hybrid Network)网络架构旨在实现高效且精确的图像超分辨率重建。该网络架构设计如图 1 所示,主要包含浅层特征提取模块 HSF、深层特征提取模块 HDF和高分辨率图像重建模块 HRec三个部分。首先,浅层特征提取部分通过一个卷积层将输入图像 ILR转换为具有指定维度的特征图F0。这一步骤的目的是从原始图像中提取出对后续处理有

14、用的信息。接下来是深层特征提取部 分,该 部 分 由 多 个 EHB(Efficient Hybrid Block)块组成。每个 EHB 块包含一系列复杂的操作,旨在捕获输入特征图中的非线性关系,并生成包含高频细节信息的特征图。为了增强网络的表达能力,本文在深层特征提取模块最后引入了一个额外的卷积层,同时,为了保留更多的低频结构信息,本文将提取到的深层特征与原始低频特征相加。最后,高分辨率图像重建部分负责将深层特征提取部分输出的特征图转换为高分辨率图像。这一步骤通过一个包含卷积操作和亚像素卷积操作的上采样模块实现,该模块将特征图的大小增加到与原始高分辨率图像相同,得到最终的重建结果 IHR。值

15、得注意的是,为了确保输入图像与网络处理过程中的特征图尺寸一致,本文在网络中加入了一个尺寸检查与填充模块。该模块通过计算最大公约数的方式,对输入图像进行适当的填充,以确保其尺寸满足网络处理的要求。综上所述,EHN 网络架构通过浅层特征提取模块、深层特征提取模块和高分辨率图像重建模块三个部分的协同工作,实现了对图像的高效且精确的超分辨率重建。这一架构不仅充43基于卷积神经网络和 Transformer 的高效图像超分辨率重建 第 52 卷2024 年第 2 期分利用了输入图像中的信息,还通过深层特征提取和重建过程生成了高质量的高分辨率图像。整个过程可以用公式表示为:F0=HSF(ILR)(1)IH

16、R=HRec(F0+HDF(F0)(2)1.2高效混合块EHB(Efficient Hybrid Block)设计高效混合块 EHB(Efficient Hybrid Block)模块的架构如图 1 所示,主要包含两个高效Transformer 块 ETB(Efficient Transformer Block)、一个膨胀深度卷积块 DDCB(Dilated Depthwise Convolution Block)以及一个残差卷积 块 RCB(Residual Convolution Block)。这些组件协同工作,以提取和增强输入特征图中的关键信息。ConvEHBEHB.ConvEHBCon

17、vPixelShuffle浅层特征提取模块深层特征提取模块高分辨率图像重建模块ETBETBDDCBRCBEHB加法操作Conv:卷积操作PixelShuffle:亚像素卷积操作 图1EHN网络整体结构示意图1.2.1高效Transformer块ETB(Efficient Transformer Block)LNESAFFNLNETBLinearConvESA加法操作XYRNNRQKS矩阵乘法操作LN:层归一化R维度重塑操作SSoftmaxVNL2-Norm 图2高效Transformer块ETB结构示意图ETB 模块负责在特征图上进行迭代变换,以捕获更复杂的空间依赖关系。在每个 EHB 中,本

18、文使用了两个 ETB 模块,它们具有相同的结构和配置。每个 ETB 模块都包含一系列的高效自注意力机制(ESA)和前馈网络(FFN),以实现特征图的非线性变换。ETB 的架构如图2 所示,该架构旨在通过一系列专门设计的组件和流程,显著提升 Transformer 模型的计算效率和性能。其关键组件为高效自注意力机制(ESA),这一机制的设计灵感来源于传统的自注意力机制,但进行了针对性的优化和改进,以适应更高效的处理需求。具 体 来 说,针 对 输 入 块 X,其 维 度 为CPP,ESA 首先执行一个维度重塑操作。这一步骤将输入块的维度从 CPP 转换为CP2,其中 代表局部块的大小。这一转换有

19、助于简化后续的计算过程,同时减少不必要的计算开销。接下来,通过一个专门设计的线性层,ESA 生成对应的查询(Q)、键(K)和值(V)。这一线性层的设计考虑了计算效率和性能之间的平衡,采用了高效的计算方法和参数配置,以确保模型能够快速而准确地生成所需的查询、键和值。这一过程可用如下公式表示:Q=XWQ,K=XWK,V=XWV(3)ESA(X)=Softmax(QKT/)V(4)为了进一步增强模型的稳定性和效率,本文采用了 L2 归一化(L2-Norm)对查询和键进行归一化处理。这一步骤能够确保查询和键的范数保持在一个合理的范围内,从而避免梯度消失或爆炸等问题,提高模型的训练稳定性和收敛速度。完成

20、自注意力计算后,结果将再次被重塑至 CPP 的维度。这一步骤是为了确保输出特征与输入特征在维度上的一致性,便于后续的处理和计算。同时,通过重塑操作,本文能够充分利用计算资源,提高模型的计算效率。最后,通过一个卷积层对结果进行进一步的处理,得到输出特征块 Y,其维度同样为CPP。这一卷积层的设计考虑了模型的表达能力和计算效率之间的平衡,采用了适当的卷积核大小和步长等参数配置,以确保模型能够有效地提取和整合输入特征中的关键信息。1.2.2 膨 胀 深 度 卷 积 块 D D C B(D i l a t e d Depthwise Convolution Block)在图像超分辨率任务中,有效的特征

21、提取和表征能力至关重要。因此,本文提出的 EHB架构中,引入了一个关键组件膨胀深度卷积块(DDCB)。DDCB 模块的设计初衷是为了在有限的计算资源下,提高模型的特征提取能力和表征性能。DDCB 模 块 结 合 了 膨 胀 卷 积(Dilated 44云南电力技术第 52 卷2024 年第 2 期Convolution)和深度可分离卷积(Depthwise Separable Convolution)两种技术,其结构如图3 所示。膨胀卷积通过在卷积核中引入零填充来增大其感知野,使得模型能够在不增加参数数量的情况下,捕捉到更多的上下文信息。而深度可分离卷积则通过分离空间卷积和通道卷积,显著降低了

22、模型的参数量和计算复杂度。ConvConvDDCBXYX1X2Dilated ConvDepthwise ConvConv元素级乘法操作Conv:卷积操作Depthwise Conv:深度可分离卷积操作Dilated Conv:膨胀卷积操作 图3膨胀深度卷积块DDCB结构示意图具体来说,DDCB 模块首先使用深度可分离卷积对输入特征图进行处理,意味着每个输入通道都独立进行卷积操作,从而减少了参数量,并且能够提取更加精细的特征表示。接着通过膨胀卷积层对深度可分离卷积的输出进行进一步处理,允许卷积核在更大的感受野内进行操作,以扩大其感知野并增强特征的上下文依赖关系。最后一个卷积层用于调整特征维度。

23、这种组合方式不仅提高了模型的表征能力,还有效地控制了模型的计算量和参数量。在 EHB 架构中,DDCB 模块的应用实现了膨胀卷积和深度可分离卷积的结合,使得模型能够更有效地从输入图像中提取出丰富的特征信息,从而提高了特征提取的效率和准确性。这种设计使得 EHB 架构在图像超分辨率任务中能够更有效地捕获图像中的细节和纹理信息,进而提升重建图像的质量。实验结果表明,DDCB模块的引入显著提升了模型的重建性能,实现了更高效和更准确的图像超分辨率重建。1.2.3残差卷积块RCB(Residual Convolution Block)残差卷积块(RCB)是本文提出的图像超分辨率网络架构中的关键组件之一,

24、其设计灵感来源于残差学习理论,其结构如图 4 所示。残差学习是一种有效的技术,旨在解决深度神经网络中由于梯度消失或爆炸导致的训练难题。通过引入残差连接,RCB 旨在提高模型的训练稳定性和性能,进而提升图像超分辨率任务中的重建质量。ConvConvRCB加法操作Conv:卷积操作ReLU 图4残差卷积块RCB结构示意图在 RCB 的设计中,本文避免了批量归一化(Batch Normalization)层的使用,以简化模型结构并减少计算开销。相反,本文通过专门设计的初始化策略和激活函数来确保模型的稳定性和收敛速度。具体来说,RCB 由两个卷积层以及一个 ReLU 激活函数组成。这种配置允许模型在保

25、持空间分辨率的同时,提取更丰富的特征信息。在 RCB 的前向传播过程中,输入特征 x 首先通过第一个卷积层进行卷积操作,然后经过ReLU 激活函数进行非线性变换。接着,将处理后的特征输入到第二个卷积层进行进一步的卷积操作。为了保持特征的恒等映射,本文将输入特征 x 与经过两个卷积层处理后的特征进行相加,并通过残差缩放因子进行缩放。这种残差连接的方式允许模型在训练过程中学习特征的残差表示,从而更容易地优化网络参数。在RCB 的初始化阶段,本文提供了两种初始化策略供选择:使用 PyTorch 默认初始化或使用自定义的初始化函数。这两种初始化策略均旨在帮助模型在训练初期更好地收敛。通过引入 RCB,

26、本文的超分辨率网络能够更好地捕捉和保留图像中的高频细节和纹理信息,从而提升重建图像的质量和视觉效果。1.3网络损失函数设计本文采用 L1 损失函数作为优化准则,对提出的 EHN 模型进行训练。训练集由 N 对低分辨率图像 IiLR和高分辨率对应图像 IiHR组成。本文的目标是最小化L1损失函数,其数学表达式如下:(5)45基于卷积神经网络和 Transformer 的高效图像超分辨率重建 第 52 卷2024 年第 2 期式中,代表 EHN 模型的参数集合,而|1表示 L1 范数。通过最小化 L(),本文能够确保 EHN 模型从低分辨率图像 IiLR生成的输出与高分辨率图像 IiHR之间的误差

27、尽可能小,从而实现图像的超分辨率重建。这种优化方法有助于提升模型的重建性能,并使得生成的图像在结构和纹理细节上更加接近真实的高分辨率图像。2实验结果与分析2.1实验数据与评价指标本文网络采用了 DF2K 数据集作为核心训练集,该数据集收集了 3450 对低分辨率与高分辨率的 RGB 图像对。这些图像对源自两个不同的数据集:DIV2K13和 Flickr2K14,其中 DIV2K贡献了 800 对图像,而 Flickr2K 则提供了 2650对图像。DIV2K 和 Flickr2K 数据集在图像质量和多样性方面具有卓越表现,确保了本文网络能够从丰富的图像细节和复杂的纹理中学习。为了全面评估本文算

28、法在实际应用中的有效性,本文选择了五个备受认可的基准数据集作为测试集。这些数据集包括 Set515、Set1416、BSD10017、Urban10018和 Manga10919,它们在图像超分辨率领域被广泛应用,具有不同的图像类型和复杂度。在评估过程中,本文采用了广泛使用的评价指标:平均峰值信噪比(PSNR)。PSNR 能够量化图像重建的精度,通过这个指标,本文能够全面评估算法在恢复图像细节和保持结构一致性方面的性能。为了与以前的研究方法保持一致,本文在亮度通道上进行了计算。这意味着本文将 RGB 图像转换为 YCbCr 颜色空间,并仅关注其中的 Y 通道,即亮度通道。这样做有助于本文更准确

29、地评估算法在恢复图像亮度信息方面的表现,并与前人的研究结果进行比较。2.2实验设置在训练阶段,本文网络从庞大的训练数据集中随机裁剪出尺寸为 6464 的图像块,并将其作为输入数据。为了丰富训练数据的多样性,本文采用了随机水平翻转和旋转(包括 90、180和 270)等图像增强技术。这样,模型就能更好地泛化到各种实际情况,而不仅仅是局限于训练集内的数据。为了获得低分辨率图像,本文借助 MATLAB 软件中的双三次插值下采样操作,从相应的真实高分辨率图像中生成了缩放因子为 2、3 和 4 的低分辨率图像。这种下采样方法能够在保持图像质量的同时,降低计算复杂度,使模型更加高效。在训练过程中,本文设定

30、了批次大小为32,即每次迭代时同时处理 32 个样本。这样既能充分利用计算资源,又能保持训练的稳定性。同时,本文设定了总训练迭代次数为 500K 次,确保模型能够充分学习训练数据中的特征。关于学习率的调整,本文采用了动态的学习率策略。初始时,本文将学习率设置为一个较小的值,以确保模型在训练初期能够稳定地学习。然后,在训练的关键里程碑点 250K、400K、450K、475K 时,本文将学习率降低了一半,以逐渐减小步长并促进模型收敛。这种学习率调整策略有助于模型在训练的不同阶段保持适当的学习速度,从而取得更好的性能。为了进一步提升模型的性能,本文采用了 L1 损失函数,并结合 ADAM 优化器进

31、行训练。在 ADAM 优化器中,本文设置了 1=0.9 和 2=0.99,以更好地平衡模型训练过程中的一阶矩和二阶矩的估计。这些参数的选择有助于模型更快地收敛到最优解,并提高模型的泛化能力。对于 2、3、4 三个不同缩放因子的模型,本文都采用了从头训练的方式,即从随机初始化的模型参数开始进行训练。2.3与现有算法对比实验为了全面评估本文提出算法的性能表现,本文选择了几种具有代表性的单图像超分辨率方法,进行了深入的定量和定性对比分析。这些方法包括传统的 Bicubic 插值法,以及近年来在超分辨率领域取得显著成果的 SRCNN2、EDSR-baseline3、CARN20、IMDN22、PAN2

32、3和SwinIR-light10算法。通过与这些方法的比较,本文能够更准确地衡量本文方法在恢复图像细节、提高分辨率以及保持图像质量方面的优势。这种对比分析不仅有助于本文了解自身方法的优势,还能够为未来的研究提供有价值的参考。2.3.1定量比较结果表 13 展 示 了 在 2、3 和 4 的 放 大倍数下,各种先进方法在五个基准数据集上的46云南电力技术第 52 卷2024 年第 2 期PSNR指标定量比较。为了更加直观地呈现结果,本文对每个测试数据集上 PSNR 性能指标表现最佳的算法进行了加粗处理,而将次优算法进行了下划线处理。从表中可以看出,基于 Swin Transformer 的 Sw

33、inIR-light 方法在重建性能上表现最为出色,而本文所提出的网络紧随其后。并且,本文网络能够在保持较少参数和较低运行时间的同时,实现与这些先进的超分辨率网络相当的 PSNR 指标,甚至在部分数据集上超过了其他代表性的算法。这一结果表明,本文网络在效率和性能之间达到了良好的平衡,显示出其在实际应用中的潜力和优势。表12放大倍数下不同算法在5个基准数据集上的 PSNR定量比较 算法Set5Set14BSD100Urban100 Manga109Bicubic33.66 30.2429.5626.8830.80SRCNN36.66 32.4531.3629.5035.60EDSR-baseli

34、ne 37.99 33.5732.1631.9838.54CARN37.76 33.5232.0931.9238.36IMDN38.00 33.6332.1932.1738.88PAN38.00 33.5932.1832.0138.70SwinIR-light38.14 33.8632.3132.7639.12EHN(本文方法)38.05 33.7432.2732.4339.06表23放大倍数下不同算法在5个基准数据集上的 PSNR定量比较 算法Set5Set14BSD100Urban100 Manga109Bicubic30.39 27.5527.2124.4626.95SRCNN32.75

35、 29.3028.4126.2430.48EDSR-baseline 34.37 30.2829.0928.1533.45CARN34.29 30.2929.0628.0633.50IMDN34.36 30.3229.0928.1733.61PAN34.40 30.3629.1128.1133.61SwinIR-light34.62 30.5429.2028.6633.98EHN(本文方法)34.49 30.4229.2028.4133.94表34放大倍数下不同算法在5个基准数据集上的 PSNR定量比较 算法Set5Set14BSD100Urban100 Manga109Bicubic28.4

36、2 26.0025.9623.1424.89SRCNN30.49 27.5026.9024.5227.58EDSR-baseline 32.09 28.5827.5726.0430.35CARN32.1328.627.5826.0730.47IMDN32.21 28.5827.5626.0430.45PAN32.13 28.6127.5926.1130.51SwinIR-light32.44 28.7727.6926.4730.92EHN(本文方法)32.33 28.7227.7026.3430.802.3.2定性比较结果为了深入探究图像超分辨率重建的效果,本研究选取了当前主流的网络模型以及传

37、统的双三次插值法,在 4 倍超分辨率的设定下,对图像进行了重建结果的对比实验。在本次对比实验中,本文特别关注了 Urban100 数据集中细节恢复较为困难的图像,如 img_045、img_067和 img_096。这些图像在原始分辨率下已呈现出一定的模糊和细节丢失现象,对其进行超分辨率重建的挑战性较大。从实验结果来看(如图 5 所示),本文所提出的方法在重建这些图像的边缘和纹理时表现出了显著的优势。通过主观视觉效果的对比分析,可以清晰地看到,本文方法重建后的超分辨率图像在细节恢复上明显优于现有的轻量级方法。具体而言,重建后的图像边缘更加锐利,纹理更加清晰,整体视觉效果更加逼真。这种优势在图像

38、的局部放大对比中尤为突出,进一步印证了本文方法在超分辨率重建领域的先进性。综上所述,本文提出的 EHN 网络在图像超分辨率重建任务中展现出了卓越的性能,其重建结果不仅可以媲美当前优秀的轻量级方法,甚至在某些方面实现了超越。这表明 EHN 网络在超分辨率重建领域具有广泛的应用前景,有望为实际应用场景下的高分辨率图像需求提供有力支持。img_067 from Urban100(4)SwinIR-light20.47EDSR-baseline19.35PAN19.47CARN19.38IMDN19.60EHN(Ours)20.53Bicubic16.91HRimg_045 from Urban100

39、(4)EDSR-baseline24.24CARN24.56Bicubic20.93HRSwinIR-light24.28PAN24.06IMDN24.80EHN(Ours)25.31img_096 from Urban100(4)EDSR-baseline24.88CARN25.11Bicubic21.31HRSwinIR-light26.18PAN25.07IMDN25.14EHN(Ours)26.25 图54放大倍数下不同算法的超分辨率效果比较47基于卷积神经网络和 Transformer 的高效图像超分辨率重建 第 52 卷2024 年第 2 期2.3.3网络推理时间对比网络推理时间对

40、于评估轻量级图像超分辨率算法的效率至关重要。为了深入验证本文提出的 EHN 网络的高效性,本文选取了在性能上与之相当的 SwinIR-light 网络进行重建速度的对比实验。在实验设置中,本文将所有尺度的低分辨率图像放大至 1280720 像素,并使用单 个 NVIDIA GEFORCE RTX 2080 Ti GPU 在Pytorch 框架下进行评估。为了确保结果的准确性,本文重复运行了 200 次测试,并计算了平均推理时间,如表 4 所示。通过对比可以看出,与性能级方法 SwinIR-light 相比,本文提出的网络在性能下降幅度不大的情况下,依然保证了高质量的视觉效果。更值得注意的是,在

41、 2、3 和 4 的放大倍数下,所提网络的推理时间仅为 SwinIR-light 的 18.4%、18.9%和20.3%。这一结果充分证明了所提网络在保持轻量级特性的同时,具有显著的性能优势。这一优势在实际应用中具有重要意义,特别是在需要高效处理大量图像的场景下,所提网络能够显著减少计算时间和资源消耗,提高整体处理效率。表4不同放大倍数下不同算法的平均推理时间比较(PSNR/SSIM在BSD100数据集上测得)算法尺度参数量/G平均推理时间/sPSNR/dBSSIMSwinIR-light20.9100.623332.310.9012EHN(本文方法)0.6750.114732.270.901

42、7SwinIR-light30.9180.274529.200.8082EHN(本文方法)0.6840.052029.190.8090SwinIR-light40.9300.149127.690.7406EHN(本文方法0.6960.030427.660.74103结束语综 上 所 述,本 文 提 出 了 一 种 结 合Transformer 和卷积神经网络的高效图像超分辨率重建算法,该算法旨在充分利用两者的互补优势,实现对图像局部和全局信息的有效建模和融合。通过实验验证,所提 EHN 模型在多个基准数据集上展现出了优越的超分辨率性能,不仅能够在较少的参数和推理时间下实现与现有方法相当甚至更好

43、的效果,而且在处理大量图像时能够显著减少计算时间和资源消耗,提高整体处理效率。此外,本文还通过引入膨胀卷积和深度可分离卷积等策略,进一步提升了算法的性能和稳定性。这些策略的应用不仅有助于提取更有效的超分辨率特征,还能够降低模型的复杂度,提升其实用性。展望未来,随着深度学习技术的不断发展,图像超分辨率重建任务仍面临着诸多挑战和机遇。如何进一步结合卷积神经网络和Transformer 的优势,提升模型的性能和稳定性,将是未来研究的重要方向。同时,我们也将探索更多先进的算法和技术,以推动图像超分辨率重建技术的发展,为实际应用场景提供更高效、更优质的解决方案。参考文献 1 孙旭,李晓光,李嘉锋,等.基

44、于深度学习的图像超分辨率复原研究进展J.自动化学报,2017,43(5):697-709.2 Dong C,Loy C C,He K,et al.Image super-resolution using deep convolutional networksJ.IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(2):295-307.3 Lim B,Son S,Kim H,et al.Enhanced deep residual networks for single image super-resolu

45、tionC/2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops(CVPRW).2017:1132-1140.4 Zhang Y,Li K,Li K,et al.Image super-resolution using very deep residual channel attention networksC/Computer Vision ECCV 2018.2018:294-310Springer,Cham,2018:294-310.5 Zhang Y,Tian Y,Kong Y,et al.R

46、esidual dense network for image super-resolutionC/2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018:2472-2481.6 Dai T,Cai J,Zhang Y,et al.Second-order attention network for single image super-resolutionC/2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)

47、,2019:11057-11066.7 Bell-Kligler S,Shocher A,Irani M.Blind super-resolution kernel estimation using an internal-GANC/Advances in Neural Information Processing Systems,2019,Inc.,2019.8 Kim J,Lee J K,Lee K M.Accurate image super-resolution using very deep convolutional networksC/2016 IEEE Conference o

48、n Computer Vision and Pattern Recognition(CVPR).2016:1646-1654.9 Vaswani A,Shazeer N,Parmar N,et al.Attention is all you needC/Advances in Neural Information Processing Systems.2017,30.10 Liang J,Cao J,Sun G,et al.SwinIR:Image restoration using Swin TransformerC/2021 IEEE/CVF International Conferenc

49、e on Computer Vision Workshops(ICCVW).2021:1833-1844.11 Chen H,Wang Y,Guo T,et al.Pre-trained image processing TransformerC/2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).2021:12294-12305Nashville,TN,USA:IEEE,2021:12294-12305.48云南电力技术第 52 卷2024 年第 2 期12 Zhang X,Zeng H,Guo

50、S,et al.Efficient long-range attention network for image super-resolutionC.Avidan S,Brostow G,Ciss M,et al.,eds./Computer Vision ECCV 2022.2022:649-667Cham:Springer Nature Switzerland,2022:649-667.13 Agustsson E,Timofte R.NTIRE 2017 challenge on single image super-resolution:dataset and studyC/2017

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服