1、ISSN 10049037,CODEN SCYCE4Journal of Data Acquisition and Processing Vol.38,No.6,Nov.2023,pp.1406-1421DOI:10.16337/j.10049037.2023.06.015 2023 by Journal of Data Acquisition and Processinghttp:/Email:sjcj Tel/Fax:+8602584892742基于深度展开和双流网络的高光谱图像融合刘丛,姚佳浩(上海理工大学光电信息与计算机工程学院,上海 200093)摘要:针对基于深度学习的高光谱图像融
2、合算法通常堆积多个卷积以学习映射关系、没有充分利用问题的特性以及缺乏可解释性等问题,提出一种结合深度展开与双流网络的深度网络。首先使用卷积稀疏编码建立融合模型,该模型将低分辨率高光谱图像(Lowresolution hyperspectral images,LRHSI)和高分辨率多光谱图像(highresolution multispectral images,HRMSI)映射到低维子空间中。在融合模型设计中,考虑了 LRHSI和 HRMSI的共有信息以及 LRHSI的独有信息,并将 HRMSI作为辅助信息加入模型中。其次将该融合模型展开为可学习的可解释深度网络。最后,使用双流网络获取更精确的
3、高分辨率高光谱图像(Highresolution hyperspectral images,HRHSI)。实验表明,该网络在高光谱图像融合中可以获得出色的效果。关键词:高光谱图像融合;卷积稀疏编码;深度展开网络;双流网络;深度学习中图分类号:TP391 文献标志码:AHyperspectral Image Fusion via Deep Unfolding and Dualstream NetworksLIU Cong,YAO Jiahao(School of OpticalElectrical and Computer Engineering,University of Shanghai f
4、or Science and Technology,Shanghai 200093,China)Abstract:Hyperspectral image fusion algorithms based on deep learning typically stack multiple convolutional layers to learn mapping relationships,which suffer from the problems of not fully utilizing the characteristics of the task and lack of interpr
5、etability.To address these problems,this paper proposes a deep network combining deep unfolding and dual-stream networks.Firstly,an image fusion model is established using convolutional sparse coding,which maps low-resolution hyperspectral images(LR-HSI)and high-resolution multispectral images(HR-MS
6、I)into a low-dimensional subspace.In the design of the fusion model,we consider the common information of LR-HSI and HR-MSI as well as the unique information of LR-HSI,and add HR-MSI to the model as auxiliary information.Next,the fusion model is unfolded into a learnable interpretable deep network.F
7、inally,the dual-stream network is used to get more accurate high-resolution hyperspectral images(HR-HSI).Experiments prove that the network obtains excellent results in the hyperspectral image fusion task.Key words:hyperspectral image fusion;convolutional sparse coding;deep unfolding networks;dual-s
8、tream networks;deep learning基金项目:国家自然科学基金(61703278)。收稿日期:20220827;修订日期:20230327刘丛 等:基于深度展开和双流网络的高光谱图像融合引 言高光谱图像是一种通过收集同一场景的不同光谱反射信息而形成的高维图像。与灰度图像或RGB 彩色图像等低光谱图像相比,高光谱图像含有更为丰富的场景及物质信息,可以更好地对不同地物特征进行识别和检测,因此其广泛地应用于图像识别、图像分类、图像分割、目标检测及光谱分离等众多领域15。然而,由于传感器硬件的性能限制,高光谱图像在成像过程中很难同时保证较高的空间分辨率和光谱分辨率。部分研究者为了获
9、取较高的光谱信息,选择牺牲空间分辨率,从而获取一幅低分辨率高光谱图像(Lowresolution hyperspectral images,LRHSI)。而另外一部分研究者为了获取较高的空间分辨率,选择牺牲光谱信息,从而获取一幅高分辨率多光谱图像(Highresolution multispectral images,HRMSI)。因 此,将 HRMSI 和 LRHSI 融 合 以 生 成 期 望 的 高 分 辨 率 高 光 谱 图 像(Highresolution hyperspectral images,HRHSI)是一种比较经济可行的方法,受到研究者的广泛关注。近年来,各种不同的高光谱图
10、像融合算法被相继提出,可将其划分为变换域方法、矩阵分解方法、张量分解方法以及深度学习方法。早期的高光谱图像融合方法以变换域融合为主,该方法将 LRHSI和 HRMSI 映射到变换域中融合,然后使用反变换获取 HRHSI,如主成分分析(Principal component analysis,PCA)6或小波变换7。矩阵和张量分解方法通常将 LRHSI和 HRMSI分解为字典和系数的形式,并加入各种正则化模型以挖掘图像的先验信息。文献 8 提出贝叶斯稀疏编码策略,该算法将LRHSI和 HRMSI分解为贝叶斯字典和稀疏编码以建立高光谱融合模型。文献 9 提出非负结构稀疏表示(Nonnegative
11、 structured sparse representation,NSSR)模型,该模型首先提出块坐标下降算法求解字典,其次设计基于聚类的模型来寻找同类子图像的相似性。文献 10 使用空间和光谱的双字典保存空间信息和光谱信息,并使用l1范数保证系数的稀疏性。文献 11 将 LRHSI和 HRMSI映射到高维向量空间中,使用 Tensor Ring分解完成融合操作。文献 12 提出非局部耦合张量 CP分解(Nonlocal coupled tensor CANDECOMP/PARAFAC decomposition,NCTCP)模型,该模型将非局部自相似性加入到融合模型中,使用 CP 分解对图
12、像进行融合。文献 13 提出低阶张量序列分解(Low tensortrain rank,LTTR)模型,该模型将高光谱图像划分为多个子图像,然后将相似的子图像划分到同一类中以形成一个四维图像,并使用 TensorRrain 算法分解该四维图像以挖掘核向量的低秩约束。文献 14 提出张量稀疏分解的半盲融合算法,其使用张量 Tucker分解将高光谱图像分解为 1个核和 3个方向的字典,并对核张量使用l1范数保证系数的稀疏性。文献 15 首先使用字典学习对图像分解,并将图像自相似性作为先验信息加入到融合模型中。文献 16 提出了自适应非负稀疏表示(Adaptive nonnegative spars
13、e representation,ANSR)模型,引入了自适应稀疏表示方法来优化非负结构稀疏模型。通过平衡系数的稀疏性和相关性,作者在 l1范数和 l2范数之间的约束下,自适应地得到更加精确的稀疏系数。文献 17 提出基于图正则化的低秩张量分解融合算法,分别使用空间图和光谱图将原始图像映射到低维空间中以去除冗余信息,并且对不同方向字典加入低秩约束以更好地发现空间和光谱间的相关性。文献 18 使用截断奇异值分解(Truncated singular value decomposition,TSVD)将高光谱图像分解为张量字典和系数,然后对图像分组,每组学习一个紧字典,并使用l1范数约束系数的稀疏
14、性。文献 19 将自适应稀疏表示引入非负结构稀疏模型中,通过平衡系数的稀疏性和相关性,在l1范数和l2范数之间的约束下自适应得到更精确的稀疏系数。尽管上述方法已经取得了良好的融合效果,但大多数先验模型都是人工设计的,无法实现端到端的优化,也无法学习潜在的映射关系导致性能有限。近年来深度卷积神经网络(Deep convolutional neural network,DCNN)因其强大的学习能力被广泛地应用于图像处理任务中,其在高光谱融合领域也获得了比较好的效果。文献 20 提出了一种基于3D卷积的高光谱融合网络,并使用主成分分析降低时间复杂度。文献 21 提出一种深度渐进零心残差学习高光谱图像
15、融合网络,该网络使用零心残差学习特征信息并获得比较好的融合效果。文献 22 提1407数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.6,2023出 SSRNet 网络,该网络通过融合空间差分与光谱差分等建立新的优化函数。文献23提出了UMAGNet网络,该网络不需要训练样本并使用编码解码器和两个注意力充分挖掘有效特征。然而,上述深度学习方法类似于“黑箱”机制,忽略了图像原有的观察模型和明显的先验结构,不仅缺乏可解释性,而且对训练数据的变化非常敏感。为了解决该问题,研究者提出深度展开的方法,将基于模型的方法与深度学习方法
16、相结合,避免了基于模型方法的手工先验设置和计算复杂度大的问题,也解决了深度学习缺乏可解释性的问题。文献 24 提出模型引导的深度卷积网络(Modelguided deep convolutional network,MoGDCN),将模型的迭代过程展开成网络的形式并巧妙地利用降噪网络求解正则项。文献 25 首先使用融合模型求解一个初值,然后将该初值作为深度网络的输入。文献 26 设计了变分融合模型并展开为网络,此外还将非局部自相似性嵌入到网络中。文献 27 提出 CNNFus算法,该算法将融合模型分解为保真项和正则项两个部分,前者使用传统的迭代优化求解,后者可被视为图像去噪问题,使用 CNN
17、去噪器对其进行求解。文献 28 将融合模型分成 3个子问题,使用深度网络对先验子问题深度展开。文献 29 提出 MHFNet网络,利用低分辨率观测模型和低秩信息构建为融合模型,并将其展开成深度卷积网络。文献 30 提出 CUNet网络并将其应用于自然图像融合中,其使用卷积稀疏编码将不同模态的图像分别分解为共有信息以及每个模态的独有信息两部分,在图像融合阶段结合共有信息和独有信息来重建融合图像,并将该模型展开为深度网络的形式,所以具有很好的可解释性。该网络在多模态融合中取得了较好的效果,但其只能对尺寸相同的两个自然融合,当面对高光谱融合问题时,很难直接对不同维度的 LRHSI和 HRMSI直接融
18、合。文献 31 提出学习的多模式卷积稀疏编码(Learned multimodal convolutional sparse coding,LMCSC)模型,该模型将多模态融合问题看作引导图像超分辨率问题,设置含有l1l1范数的超分辨率模型,并将其展开为网络的形式。为了获取更好的高光谱图像融合效果,本文提出一种基于深度展开和双流网络的图像融合网络(Deep unfolding and dual stream fusion network,DUDSFusionNet)。该网络分为深度展开先验网络和双流融合网络两部分。在深度展开先验网络中,使用卷积稀疏编码设计融合模型,并使用深度展开原理将该融合模
19、型的求解迭代过程展开为深度网络。在设计卷积稀疏编码融合模型时,首先借鉴CUNet网络的思想,将 LRHSI分解成共有信息和独有信息两部分。其次借鉴 LMCSC 模型的思想,将 HRMSI分解为卷积字典和卷积稀疏表示,并将该卷积稀疏表示作为辅助信息以更好地获取融合图像。再者,针对 CUNet网络和 LMCSC 模型无法直接融合不同波段的高光谱图像的问题,将三维稀疏字典堆积成可表示高光谱图像的四维稀疏字典。通过该深度展开先验网络,可获得带有先验信息的高光谱融合图像。为了充分挖掘 HRMSI的结构信息,将其与深度展开网络得到的先验信息输入到双流融合网络中以获取空间精度更高的高光谱融合图像。实验结果表
20、明,本文所提出的方法在高光谱图像融合任务中获得了出色的效果。1 相关工作 本节将对本文中使用到的技术做简要介绍,包括稀疏编码、卷积稀疏编码、基于辅助设计的卷积稀疏编码以及模型展开技术。1.1稀疏编码1.1.1传统稀疏编码给定一个d维的输入信号y Rd,可将其逼近为一组字典的线性组合形式y D,其中D Rd m表示稀疏字典,m表示字典中原子的个数,Rm表示y在字典D上的稀疏表示。为了保证系数的稀疏性,该问题可描述为min 0 s.t.y D(1)1408刘丛 等:基于深度展开和双流网络的高光谱图像融合由于l0范数的最优化问题是一个非凸的并且是非确定性多项式难题,故在实际求解中将其松弛为l1范数,
21、即min 1 s.t.y D(2)使用拉格朗日乘子法将约束条件转化为带有惩罚项系数的拉格朗日函数求解,即=argm in 12y-D22+1(3)式中:表示拉格朗日乘子系数;1表示l1范数。1.1.2卷积稀疏编码及其网络展开由于传统的稀疏编码将图像划分为多个小块且向量化,不可避免地丢失了相邻块和相邻元素之间的结构性。为了避免该问题,文献 32 提出了卷积稀疏编码(Convolutional sparse coding,CSC),该编码是一种全图稀疏编码方式,其使用卷积直接对原始图像进行运算,既不需要分块也不需要向量化,避免了传统稀疏编码丢失相邻块和相邻元素结构性的问题。给定输入图像y Rn n
22、,使用卷积稀疏编码可将其分解为卷积字典和稀疏特征,可描述为mini 12 y-i=1mdi*i22+i=1mi1(4)式中:di Rr r和i Rn n分别表示卷积字典的原子和对应的稀疏表示;*表示卷积运算。针对式(4)的优化方法主要包括快速傅里叶法、直接优化方法33和可学习卷积稀疏编码(Learning convolutional sparse coding,LCSC)算法34。由于卷积运算是线性的,可以构造一个托普利兹矩阵矩阵Di Rn2 n2,并将i向量化为i Rn2,使di*i=Dii。可将式(4)转换为mini 12 y-i=1mDii22+i=1mi1(5)式中:y Rn2为向量化
23、的y;构造D Rn2 mn2=D1,D2,Dm;Rmn2=1,2,m,可将式(5)转化为传统的稀疏编码问题min 12y-D22+1(6)式(6)可以使用迭代收缩阈值算法(Iterative shrinking threshold algorithm,ISTA)35求解,得到如下迭代解(t+1)=S(t)+1DT(y-D(t)(7)式中:为梯度下降的迭代步长;S(x)=sign(x)max(|x|-,0)为软阈值函数,如图 1所示。由于卷积稀疏表示对整个图像操作,产生的矩阵过大,直接对式(7)求解无法实现。文献 34 使用 LCSC 将式中的矩阵乘法替换为卷积运算,可得(t+1)=S(t)-E
24、*F*(t)+E*y)(8)式中E Rr r m、F Rr r m分别是实现 Toeplitz矩阵DT和D的滤波器。在 LCSC中,E和F作为深度网络中的卷积层是可训练的。1.2结合辅助信息的稀疏编码根据最近的研究36,如果存在与目标图像y相关的图像,则可图 1软阈值函数Fig.1Soft thresholding function1409数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.6,2023以将相关图像作为辅助信息进一步提高稀疏约束问题的准确性。假定y Rn和 Rd具有相似的稀疏表示 Rm,s Rm,分别对应于字
25、典Dy Rn m、D Rd m,n m,d m。不仅可以重建目标图像,而且应该与s相似。为了利用该辅助信息,可以模型中插入额外的约束项来创建结合辅助信息的CSC模型。稀疏表示系数可以求解以下l1l1最优化问题得到min 12y-Dy22+(1+-s1)(9)此问题已经在文献 36 中进行了理论研究,文献 37 中介绍了求解问题的数值方法,可使用分段迭代软阈值算法求解()t+1=P()t-1DTy(Dy()t-y);s)(10)式中分段软阈值函数P(v;s)如图 2所示,定义如下:(1)如果si 0 P(vi;si)=vi+2 vi-2 0 -2 vi 0 vi 0 vi si si si vi
26、 si+2vi-2 vi si+2(11)(2)如果si 0P(vi;si)=vi+2 vi si-2 si si-2 vi si vi si vi 0 0 0 vi 2vi-2 vi 2(12)同理,使用 LCSC将式(10)中的矩阵乘法替换为卷积运算,可得(t+1)=P(t)-E*F*()t+E*y;s)(13)2 本文方法 图 3描述了本文提出的 DUDSFusionNet整体框架。如图 3所示,该网络包括两个主要部分:基于CSC的深度展开网络和双流融合网络 DSFN,图中 UniqueIEM、AuxiliaryIEM 和 CommonIEM 分别指下图 2分段软阈值函数Fig.2Pie
27、cewise soft thresholding function图 3DUDSFusionNet网络整体架构Fig.3Overall architecture of DUDSFusionNet1410刘丛 等:基于深度展开和双流网络的高光谱图像融合文的独有信息提取模块,辅助信息提取模块和共有信息提取模块。在基于 CSC 的深度展开网络中,首先,HRMSI和 LRHSI通过辅助信息提取模块和独有信息提取模块得到z和 x。其次,卷积单元将 x从特征空间映射到图像空间中,计算残差图像L。然后,共有信息提取模块在辅助信息z的约束下从残差图像L中提取共有信息稀疏表示 y。根据式(16),使用两个卷积单
28、元实现字典和,并将 x和 y映射到图像空间,以获取带有先验信息的 HRHSI。在双流融合网络 DSFN 中融合带有先验信息的 HRHSI和 HRMSI得到最终的 HRHSI。2.1基于 CSC的深度展开网络模块基于带有辅助信息的卷积稀疏编码思想,本文设计了一种全新的高光谱图像融合模型,并将该模型展开为深度展开网络。在模型设计中,为了充分利用 HRMSI的信息,将其图像信息和稀疏系数信息应用于网络设计中。首先提取 HRMSI的卷积稀疏系数,具体实现公式为minz 12M-c*z22+z1(14)式中:M Rb P Q表示 HRMSI;c Rb k r r表示滤波;z Rk P Q表示M的稀疏表示
29、;b表示波段数;P Q表示图像的高度和宽度;k表示滤波的数量;r表示滤波的大小。对 于 LRHSI,使 用 双 三 次 插 值 算 法38将 其 空 间 尺 寸 上 采 样 为 与 目 标 图 像 HRHSI 相 同,即L RB P Q,B表示高光谱图像的波段数。L和M具有高度的空间相似性,但是L每个波段的光谱响应强度与M不同。为了描述L和M之间的关系,本文将L分解为两部分信息,分别是与M图像不相关的独有信息a*x以及相关的共有信息b*y,即L可以表示为L=a*x+b*y,其中a和b是两种信息所对应的字典,x 和y分别为独有信息稀疏表示与共有信息稀疏表示。为了融合L和M的信息,使得 z和y尽可
30、能相似,得到以下模型minx,y 12L-()a*x+b*y22+(x1+y1+y-z1)(15)假定 LRHSI和 HRHSI图像共享稀疏表示,式中 y由辅助信息z约束。因此,在已知 HRHSI的字典的情况下,即和已知,HRHSI H可以通过求解以下公式得到H=*x+*y(16)2.1.1辅助信息提取模块首先,优化式(14)以通过稀疏 HRMSI来获取辅助信息z。式(14)是l1正则化最小二乘问题,根据式(7),可获得迭代公式为z()t+1=S(z()t-1cT*(c*z()t-M)(17)式中cT是c的转置形式。根据上述原理,式(14)可以通过辅助信息提取模块求解,式(17)的计算过程可以
31、转换到深度网络形式,即z()t+1=S(z()t-Ez*Dz*z()t+Ez*M)(18)式中cT和c使用两个可自适应学习的卷积层Dz Rb k r r和Ez Rk b r r实现。式(18)可展开为图 4所示。该模块包含T个迭代块,每个块执行式(18)中的计算流程。由于z()0被初始化为零,第一次迭代模块的计算流程为z()1=S(Ez*M)。1411数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.6,20232.1.2独有信息提取模块由于式(15)中有两个未知项,对其分别迭代优化。首先,固定y迭代更新x,式(15)转换
32、为以下问题minx 12L-()a*x+b*y22+x1(19)等价代换得到minx 12L-a*x22+x1(20)式中L=L-b*y。使用迭代软阈值算法求解x()t+1=S(x()t-1aT*(a*x()t-L)(21)类似于式(17)和式(18),将此迭代过程转换为独有信息提取模块x()t+1=S(x()t-Ex*Dx*x()t+Ex*L)(22)独有信息提取模块的结构如图 5所示。模块的输入为L=L-b*y。在整体网络中,共有信息稀疏表示y通过下节的共有信息提取模块计算得到。因此,初始化为y=0,所以独有信息提取模块的输入退化为L=L。2.1.3共有信息提取模块最后,给定辅助信息z和独
33、有信息x,就可以导出共有信息提取模块。固定x迭代更新y,式(15)转换为以下问题miny 12L-b*y22+(y1+y-z1)(23)式中L=L-a*x。使用分段迭代软阈值算法求解y()t+1=P(y()t-1bT*(b*y()t-L);z)(24)式中P(v;s)是分段软阈值函数。同理,将此迭代过程转换为共有信息提取模块图 4辅助信息提取模块Fig.4Auxiliary information extraction module(AuxiliaryIEM)图 5独有信息提取模块Fig.5Unique information extraction module(UniqueIEM)1412刘
34、丛 等:基于深度展开和双流网络的高光谱图像融合y()t+1=P(y()t-Ey*Dy*y()t+Ey*L;z)(25)模块结构如图 6所示。使用残差结构得到稀疏特征图L=L-a*x。为了使网络灵活,将x从特征空间投影到图像空间时,使用一个卷积层实现滤波器a。2.2双流融合网络模块为了充分利用 HRMSI的结构信息,将其再次输入网络与卷积稀疏编码获得的 HRHSI融合,以更好地提升融合效果,本文使用双流融合网络实现该操作。双流网络在特征提取和组合双线数据的特征具有更好的提升效果,已经成功地应用于动作识别、高光谱分类和高光谱超分辨率等领域3941。如图 7所示,本文的 DSFN 模块将带有先验信息
35、的 HRHSI和 HRMSI作为两个输入,包含 P个残差块的分支提取 HRHSI和 HRMSI的特征信息,然后将结合的特征输入到卷积层。该网络的核心是残差块,包含两个卷积层(Conv)和批量标准化层(Batch normalization,BN),使用 PReLU 作为激活函数。BN 层用于加快训练过程并提高图像重建性能。跳跃连接通过元素求和将输入特征图传递到残差块的输出。最后一个卷积层包含 B 个卷积过滤器,B 为图像包含的光谱波段数。其他卷积层包含 64个过滤器,每个过滤器的内核大小为 33,步长为 1。2.3损失函数本文的网络整体包含深度展开网络模块和双流网络模块,使用监督方式端到端训练
36、,以反向传播的方式更新整体网络参数。深度展开模块中,信息提取子模块的优化目标由模型设定的网络结构所约束,并且在训练过程中自适应优化。为了测量网络输出与目标图像间的差距,选用l1范数作为本文的损失函数为Loss()=k=1KF()Lup,k,Mk;-Hk1(26)式中:总网络为F();Lup,k表示第 k 个上采样 LRHSI;Mk表示第 k 个 HRHSI;Hk表示第 k 个 HRHSI;为可以以监督方式端对端训练的网络参数;K表示训练图像对的数量。图 6共有信息提取模块Fig.6Common information extraction module(CommonIEM)图 7双流融合网络F
37、ig.7Dual stream fusion network(DSFN)1413数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.6,20233 实验及结果分析 3.1实验环境及参数设置本文使用 CAVE42和 Harvard43两个数据集作为实验数据,评估所提方法的性能。两个数据集部分图像如图 8所示。其中 CAVE数据集由 32张在控制波段照明下拍摄的室内 HSI组成,每个 HSI空间分辨率为 512 像素512 像素,包含 31 个光谱波段,覆盖的光谱为 400700 nm,波长间隔为 10 nm。Harvard数据
38、集包含 50张在自然光下拍摄的室内和室外 HSI,图像大小为 1 392像素1 040像素,包含31个光谱波段,覆盖 420720 nm 的可见光谱。本文取其左上角的 1 024像素1 024像素大小的图像用于实验。本文的实验数据处理如下。将来自两个数据集的 HSI 归一化到 0,1 的范围内作为参考图像。LRHIS 中 L通过对参考图像进行下采样生成,下采样比例因子 设置为 8、16 和 32。本文分别从CAVE、Harvard数据集中选择前 20、30个 HSI作为训练集,剩余的 HSI作为测试集,然后根据相应的训练集和测试集生成 LRHSI和 HRMSI图像。此外,为了丰富训练数据的多样
39、性,从训练集中随机裁剪大小为 128128的块,并通过旋转(90、180、270)和翻转来进行数据增强。在测试阶段,本文直接利用从测试集中的 HRHSI退化而来的 LRHSI和 HRMSI图像来重建目标图像。本文模型通过 Pytorch深度学习框架搭建,所有的实验都是在 Ubuntu 18.04.3 LTS系统的服务器上实现,该服务器拥有内存为 32 GB 的 Intel Core i99900KF CPU 和内存为 11 GB 的 NVIDIA GeForce RTX 2080 GPU。此外,采用Adam算法44作为优化器,batch size设置为16,初始学习率为0.000 2,迭代 2
40、 000次。为了综合评估重建的高光谱图像的质量,本文采用 RMSE、PSNR、ERGAS和 SAM 四个指标评估算法的有效性。RMSE45常用于表示两幅图像之间的相似度。设X和X的大小为M N,其定义为RMSE(X,X)=1MNi=1Mj=1N|X()i,j-X(i,j)2(27)式中:X(i,j)表示图像X在位置(i,j)的像素值;X(i,j)表示图像X在位置(i,j)的像素值。较小的RMSE值表示图像之间的相似度较高。PSNR46为峰值信噪比,表示两幅图像之间差异程度,定义为PSNR(X,X)=-10Si=1Slg()MSE()Xi,Xi(28)式中:S表示图像的光谱波段数;MSE()返回
41、输入的均方误差。较高的 PSNR 值表明融合图像与参考图像之间的差异较小,并且保留了更多的细节。图 8部分 CAVE数据集和部分 Harvard数据集Fig.8Examples of RGB images from CAVE dataset and Harvard dataset1414刘丛 等:基于深度展开和双流网络的高光谱图像融合ERGAS表示所有波段的合成误差,定义为ERGAS(X,X)=100d1Si=1SMSE()Xi,Xi2Xi(29)式中:d为空间下采样因子;表示图像像素值的平均值。较小的 ERGAS 值表示两幅图像之间的光谱一致性较高。SAM47是评价频谱失真的指标,定义为SA
42、M(X,X)=1j=1MarccosX,XXj2Xj2(30)式中:为像素的数量;表示两个向量的内积;Xj和Xj表示两幅图中第 j个像素。较小的 SAM 值表示较少的频谱失真。3.2模型分析3.2.1网络参数选择DUDSFusionNet中含有 2个重要参数,分别为卷积稀疏编码中迭代次数 T以及 DSFN 残差模块的数量 P。本节对 2个参数进行分析。首先分析迭代次数 T,由于 3个模块具有相同的数学原理,所以 3个模块中的 T取相同值。随着参数的增大,整体性能也会逐渐提高,过大的 T值将会增加网络的时间复杂度。本节测试了 T从 18不同取值的融合性能,如图 9(a)所示。可以看到,本文方法在
43、 4个指标上的性能随着深度的增加而逐渐提高。当 T 处于 46时性能趋向稳定,因此选择 T=4为卷积稀疏编码块数。另外,DSFN 残差模块的数量 P 对结果的影响如图 9(b)所示。较小的 P 值将会导致网络学习能力不足,相反地,较大的 P 值将会增加时间复杂度。如图所示,当 P 的值设置为 6时,性能与效率最佳。图 9不同 T和不同 P时在 CAVE测试数据集上的 4种评价指标平均值Fig.9Average of test results of four evaluation metrics on the CAVE test dataset with different T and P141
44、5数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.6,20233.2.2消融实验本节将对网络的两个主要部分:深度展开网络和双流融合网络做消融实验分析。实验结果如表 1所示,表中表示值越大越好,表示值越小越好。首先分析深度展开网络对结果的影响。表 1中第 1行描述了只使用双流融合网络、没有使用深度展开网络的重建效果,记作“w/o DU”。与第 3行(提出算法)获得的结果对比可知,其指标分别上升或下降了 1.608、0.205 1、0.157 9和 0.602 2。图 10显示了测试图像“fake_and_real_toma
45、toes”在 550 nm 波段对应不同消融实验的误差图。从视觉上看,w/oDU 方法在恢复目标 HRHIS时产生的误差比 DUDSFusionNet更明显。这说明深度展开模型在整个模型中起到了重要的作用。其次分析双流融合网络的影响。表 1中第 2行描述了只使用深度展开网络没有使用双流融合模型的重建效果,表示为“w/o DSFN”。与第 3行(提出算法)获得的结果对比可知,其指标分别上升或下降了 2.406、0.402 5、0.253 4和 0.892 8。如图 10所示,w/o DSFN 方法由于在融合过程中所获取的空间信息较少,其误差图表现出在分辨率精度上有明显欠缺,这证明了DSFN在提升
46、空间分辨率方面有显著作用。3.3对比试验为了验证提出算法 DUDSFusionNet的有效性,将其与 7种有代表意义的算法进行比较。包括 3种基于字典的融合算法和 4种基于深度学习的融合算法。3种基于字典的融合算法分别为贝叶斯稀疏表示 BSR8、非负结构化稀疏表示 NSSR9和自适应非负稀疏表示 ANSR19。4种基于深度学习的方法包括一个无监督学习方法 UMAGNet23和 3 个基于模型展开的深度学习方法 DHSIS25、GDRRN28和MHFNet29。其中前 4种方法为无监督学习方法,不需要训练。对于 NSSR,原子字典的个数K设置为75,非局部相似正则化参数1和稀疏正则化参数2设置为
47、1=0.015,2=10-4。对于 ANSR,原子字典的个数K设置为 80,非局部相似正则化参数1和稀疏正则化参数2设置为1=10-2,2=10-4。后3种方法为监督学习,为了保证测试结果的公平性,对比方法与本文所提出的方法都在同一个服务器上使用相同的数据集进行了训练。对比方法所涉及的参数以及训练迭代次数均根据参考文献中的建议进行调整,且均使用 Adam 优化器训练。表 1不同方法在 CAVE数据集上的平均 RMSE、PSNR、ERGAS和 SAM(=8)Table 1Average RMSE,PSNR,ERGAS,and SAM of different methods with scali
48、ng factor=8 on CAVE datasetMethodw/o DUw/o DSFNProposedPSNR46.01645.21847.624RMSE1.529 01.726 41.323 9ERGAS0.683 80.779 30.525 9SAM3.813 34.103 93.211 1图 10CAVE数据集在 550 nm波段不同消融实验的误差图(=8)Fig.10Error maps of different ablation experiments in 550 nm wave band on CAVE dataset(=8)1416刘丛 等:基于深度展开和双流网络的高光
49、谱图像融合3.3.1CAVE数据集评估对 CAVE数据集 12张测试图像进行测试,得到每种融合方法的客观评价指标平均值。表 2展示了不同算法在不同缩放因子下对 CAVE数据集融合的实验结果。在表 2中,表示值越小越好,表示值越大越好。通过该表可以得出,本文所提出的方法除了在比例因子为 32 的情况下 SAM 指标略低于MHFnet,都优于所有竞争方法,尤其是当比例因子较小时(=8),本文算法的优越性更加显著。图 11 展示了不同算法对 CAVE 数据不同波段的平均 PSNR 值。通过图 11 可以看出,在所有测试方法中,本文方法在大部分光谱波段表现最好。主要原因在于:(1)提出的算法使用了稀疏
50、卷积网络展开获取先验HRHIS;(2)DSFN有效地将先验信息与空间信息融合起来,从而有助于获得更好的性能。除了运用客观指标评估以外,同时采用视觉效果展示提出方法。图 12显示了测试图像“real and fake peppers”在 550 nm 波段的重建图像和对应的误差图,其放大因子=8。从视觉上看,本文方法在恢复目标HRHSI的细节方面提供了最好的结果。相比与其他方法,在红框内物体表面高光部分的误差图更接近于 0,这证明了本文方法在恢复目标 HRHSI的空间信息方面的有效性。3.3.2Harvard数据集评估对 Harvard 数据集 20 张测试图像进行测试,得到每种融合方法的客观评