投稿问答最小化  关闭

万维书刊APP下载

基于深度学习的空谱遥感图像融合综述

2023/3/31 15:43:55  阅读:115 发布者:

基于深度学习的空谱遥感图像融合综述

胡建文, 汪泽平, 胡佩

长沙理工大学电气与信息工程学院,长沙 410114

摘要:

随着遥感技术的快速发展与广泛应用,对获取的遥感图像质量有了更高的要求。但是,难以直接获得高空间分辨率多光谱遥感图像。为了结合不同成像传感器的信息,获得高质量的图像,图像融合技术应运而生。空谱遥感图像融合是一种获取高空间分辨率多光谱图像的有效方法,目前已有许多学者针对空谱遥感图像融合展开研究,取得了较多成果。近年来,深度学习理论得到了快速发展,广泛应用于空谱遥感图像融合。为了让学者们能够更系统地了解空谱遥感图像融合的现状,推动空谱遥感图像融合的发展,首先对常用的遥感卫星作了介绍,并简单总结了传统的经典空谱图像融合算法; 其次,从监督学习、无监督学习和半监督学习3个方面,重点对基于深度学习的空谱图像融合算法进行了阐述,还对损失函数进行了描述与分析; 然后,为了证明基于深度学习方法的优越性以及分析损失函数的影响,开展了遥感图像融合实验; 最后,对基于深度学习的空谱图像融合方法进行了展望。

0 引言

传统的卫星所获得的单传感器图像特征比较单一,限制了其应用。因此人们用卫星搭载多源传感器来获取丰富多样的信息,这些多源信息既冗余又互补[1]。由于传感器成像原理的限制,遥感图像的空间分辨率与光谱分辨率相互制约,单一传感器不能获得高空间分辨率的多光谱图像,满足不了现代社会多样化的需求[2]。为了合理利用和整合多源卫星图像的信息,获得高空间分辨率的多光谱图像,空谱遥感图像融合技术应运而生[3-4]

图像融合是一种将多个不同成像传感器对同一物体或场景所获取的信息进行处理并融合的技术。图像融合方法不仅能合理有效地利用图像的有用信息,在提高原始图像空间分辨率的同时也提高了其光谱分辨率,同时也减小了单一成像传感器对目标物体描述的偏差与不确定性[5]。图像融合技术不仅深化了信息的使用,也优化了图像的质量。在对高分辨率多光谱图像需求日益增多的时代,图像融合技术已广泛应用于交通[6]、灾害监测[7]和农业等领域[8]

现已提出许多空谱图像融合的方法,并有学者在综述中针对空谱图像融合算法进行了归纳整理。张良培等[9]和李树涛等[10]将空谱图像融合分为全色-多光谱融合、全色-高光谱融合和多光谱-高光谱融合3个方面进行概括与分析; 张立福等[11]在对现有的遥感图像融合研究成果的调研中,将应用于空谱图像融合的基于空间维提升的算法和基于光谱维提升的算法进行了归纳与总结; Meng[12]基于元分析的思想,20002016年间提出的不同类别的空谱图像融合方法的性能进行了评价,并阐述了空谱图像融合的发展过程; Javan[13]介绍了41种空谱图像融合方法,将其分为成分替换法、多尺度分解法、基于变分优化法和混合方法4,分析了各类方法的融合性能; Vivone[14]研究了不同类别最先进的空谱图像融合算法,将经典的空谱图像融合算法与第三代空谱图像融合算法进行了比较,并为空谱图像融合算法的定量评估提供了MATLAB工具箱。

上述综述主要是对传统空谱图像融合方法性能的比较和优缺点的分析,如成分替换法的实现较为简单,但是融合的图像质量欠佳,光谱扭曲较严重。多尺度分解法在光谱保持方面优于成分替换法,但是空间结构还欠佳。近年来,随着深度学习理论的发展,学者们对基于深度学习的遥感图像融合进行了大量的研究。Huang[15]所提出的基于深度神经网络的遥感图像融合算法; Masi[16]所提出的简单有效的基于三层网络的遥感图像融合方法(pansharpening by convolutional neural networks,PNN)都是较早利用深度学习实现空谱图像融合的方法。相比于传统的空谱图像融合方法,基于深度学习的方法无论是光谱保持还是空间细节锐化程度都有较大提高。虽然已提出了许多基于深度学习的空谱图像融合方法,但缺乏对这些方法的全面、系统的综合分析。因此,本文将现有的基于深度学习的空谱图像融合方法分为监督学习、半监督学习和无监督学习3大类进行了归纳,并阐述了各类方法的优点以及所存在的一些问题。最后,对基于深度学习的空谱图像融合的发展趋势和未来可能的研究方向进行了展望。

1 常用遥感卫星

遥感图像融合所需数据集由多种遥感卫星提供的全色图像和多光谱图像组成。常用的卫星包括国内的高分系列,国外的GeoEye1,IKONOSWorldView系列等。全色图像的空间分辨率通常是多光谱图像的4,能够提供丰富的空间信息。多种遥感卫星不仅为图像融合技术提供了必要的数据支持,并且在工业和农业等方面都发挥了巨大价值。

1给出了常用卫星的参数信息。

2 传统空谱遥感图像融合算法

2.1 成分替换法

成分替换法一般包括以下3: 首先,将多光谱图像变换到另一个空间,获得多光谱图像的各种分量; 然后,用全色图像替代其中一个分量; 最后,通过相应的反变换得到融合图像。经典的成分替换方法包括主成分分析[17]Gram-Schmidt(GS)变换[18]IHS(强度、色调、饱和度)变换[19]等。

经典成分替换法一般是全局的,它在整个图像上以相同的方式运行。成分替换法快速简单,由于用全色图像直接替换其中一个分量,而全色图像包含丰富的细节,所以这类方法融合图像的空间细节通常较好。但是成分替换法只适用于全色图像与多光谱图像之间高度相关的情况,否则容易因图像之间光谱不匹配而产生局部差异,从而引起显著的光谱失真。为了克服这个问题,学者们提出了一些改进方法。如Garzelli[20]提出了一种波段相互依赖的细节注入模型(band dependent spatial-detail,BDSD),4波段的多光谱图像融合处理上有较好的性能。

2.2 多尺度分解法

基于多尺度分解的图像融合方法主要包含3: 首先,对多源图像进行多尺度分解; 然后,融合不同源图像的分解系数; 最后,在融合系数上进行多尺度逆变换得到融合图像。其中,多尺度分解将原始图像分解成多个不同尺度的高频和低频系数,系数融合是根据不同的融合规则对不同尺度分解层上的高频与低频系数分别进行融合。常用的多尺度分解方法包括拉普拉斯金字塔[21]、广义拉普拉斯金字塔(generalized laplacian pyramid,GLP)[22]、离散小波变换[23]Curvelet变换[24]、非下采样轮廓波变换[25]和非下采样Shearlet变换[26-27]等。与成分替换法相比,多尺度分解方法不仅注入了高频空间细节,而且还较好地保持了融合图像的光谱信息,从而解决一定的光谱失真问题,但是相应地会带来空间信息丢失、造成振铃现象等问题,因此在融合图像的结构细节方面还需加强。

2.3 稀疏表示法

除了成分替换法和多尺度分解法之外,利用稀疏表示理论进行遥感图像融合也是学者们广泛关注的方向。稀疏表示法利用图像块在过完备字典上表示的稀疏性对图像进行融合。基于稀疏表示理论,Li[28]首次尝试从压缩感知的角度提出了遥感图像全色锐化方法。针对高低空间分辨率图像的稀疏表示系数不同的问题,Yin[29]将稀疏表示超分辨率和图像融合的细节注入集成到一个框架内,提出了基于局部自适应稀疏表示的遥感图像融合方法; 李成轶等[30]提出利用冗余字典对图像进行稀疏表示,进行初步的图像超分辨率,然后再利用GS方法进行融合。

在实际的应用中无法直接获取字典学习中所需要的高空间分辨率多光谱图像,针对这一问题,学者们提出了一些解决方法。Yin[31]通过学习字典提取全色图像的空间细节信息,然后将提取的信息与多光谱图像融合得到高质量的融合图像; Li[32]提出了一种基于学习字典稀疏表示的遥感图像融合方法,该方法从源图像中自适应学习全色图像字典和多光谱图像字典。尽管稀疏表示法可以获得较好的融合性能,但由于在融合时需要进行稀疏优化求解,导致其效率较低,限制了稀疏表示融合方法的应用。

3 基于深度学习的空谱遥感图像融合

2.1 成分替换法

成分替换法一般包括以下3: 首先,将多光谱图像变换到另一个空间,获得多光谱图像的各种分量; 然后,用全色图像替代其中一个分量; 最后,通过相应的反变换得到融合图像。经典的成分替换方法包括主成分分析[17]Gram-Schmidt(GS)变换[18]IHS(强度、色调、饱和度)变换[19]等。

经典成分替换法一般是全局的,它在整个图像上以相同的方式运行。成分替换法快速简单,由于用全色图像直接替换其中一个分量,而全色图像包含丰富的细节,所以这类方法融合图像的空间细节通常较好。但是成分替换法只适用于全色图像与多光谱图像之间高度相关的情况,否则容易因图像之间光谱不匹配而产生局部差异,从而引起显著的光谱失真。为了克服这个问题,学者们提出了一些改进方法。如Garzelli[20]提出了一种波段相互依赖的细节注入模型(band dependent spatial-detail,BDSD),4波段的多光谱图像融合处理上有较好的性能。

2.2 多尺度分解法

基于多尺度分解的图像融合方法主要包含3: 首先,对多源图像进行多尺度分解; 然后,融合不同源图像的分解系数; 最后,在融合系数上进行多尺度逆变换得到融合图像。其中,多尺度分解将原始图像分解成多个不同尺度的高频和低频系数,系数融合是根据不同的融合规则对不同尺度分解层上的高频与低频系数分别进行融合。常用的多尺度分解方法包括拉普拉斯金字塔[21]、广义拉普拉斯金字塔(generalized laplacian pyramid,GLP)[22]、离散小波变换[23]Curvelet变换[24]、非下采样轮廓波变换[25]和非下采样Shearlet变换[26-27]等。与成分替换法相比,多尺度分解方法不仅注入了高频空间细节,而且还较好地保持了融合图像的光谱信息,从而解决一定的光谱失真问题,但是相应地会带来空间信息丢失、造成振铃现象等问题,因此在融合图像的结构细节方面还需加强。

2.3 稀疏表示法

除了成分替换法和多尺度分解法之外,利用稀疏表示理论进行遥感图像融合也是学者们广泛关注的方向。稀疏表示法利用图像块在过完备字典上表示的稀疏性对图像进行融合。基于稀疏表示理论,Li[28]首次尝试从压缩感知的角度提出了遥感图像全色锐化方法。针对高低空间分辨率图像的稀疏表示系数不同的问题,Yin[29]将稀疏表示超分辨率和图像融合的细节注入集成到一个框架内,提出了基于局部自适应稀疏表示的遥感图像融合方法; 李成轶等[30]提出利用冗余字典对图像进行稀疏表示,进行初步的图像超分辨率,然后再利用GS方法进行融合。

在实际的应用中无法直接获取字典学习中所需要的高空间分辨率多光谱图像,针对这一问题,学者们提出了一些解决方法。Yin[31]通过学习字典提取全色图像的空间细节信息,然后将提取的信息与多光谱图像融合得到高质量的融合图像; Li[32]提出了一种基于学习字典稀疏表示的遥感图像融合方法,该方法从源图像中自适应学习全色图像字典和多光谱图像字典。尽管稀疏表示法可以获得较好的融合性能,但由于在融合时需要进行稀疏优化求解,导致其效率较低,限制了稀疏表示融合方法的应用。

2.1 成分替换法

成分替换法一般包括以下3: 首先,将多光谱图像变换到另一个空间,获得多光谱图像的各种分量; 然后,用全色图像替代其中一个分量; 最后,通过相应的反变换得到融合图像。经典的成分替换方法包括主成分分析[17]Gram-Schmidt(GS)变换[18]IHS(强度、色调、饱和度)变换[19]等。

经典成分替换法一般是全局的,它在整个图像上以相同的方式运行。成分替换法快速简单,由于用全色图像直接替换其中一个分量,而全色图像包含丰富的细节,所以这类方法融合图像的空间细节通常较好。但是成分替换法只适用于全色图像与多光谱图像之间高度相关的情况,否则容易因图像之间光谱不匹配而产生局部差异,从而引起显著的光谱失真。为了克服这个问题,学者们提出了一些改进方法。如Garzelli[20]提出了一种波段相互依赖的细节注入模型(band dependent spatial-detail,BDSD),4波段的多光谱图像融合处理上有较好的性能。

2.2 多尺度分解法

基于多尺度分解的图像融合方法主要包含3: 首先,对多源图像进行多尺度分解; 然后,融合不同源图像的分解系数; 最后,在融合系数上进行多尺度逆变换得到融合图像。其中,多尺度分解将原始图像分解成多个不同尺度的高频和低频系数,系数融合是根据不同的融合规则对不同尺度分解层上的高频与低频系数分别进行融合。常用的多尺度分解方法包括拉普拉斯金字塔[21]、广义拉普拉斯金字塔(generalized laplacian pyramid,GLP)[22]、离散小波变换[23]Curvelet变换[24]、非下采样轮廓波变换[25]和非下采样Shearlet变换[26-27]等。与成分替换法相比,多尺度分解方法不仅注入了高频空间细节,而且还较好地保持了融合图像的光谱信息,从而解决一定的光谱失真问题,但是相应地会带来空间信息丢失、造成振铃现象等问题,因此在融合图像的结构细节方面还需加强。

2.3 稀疏表示法

除了成分替换法和多尺度分解法之外,利用稀疏表示理论进行遥感图像融合也是学者们广泛关注的方向。稀疏表示法利用图像块在过完备字典上表示的稀疏性对图像进行融合。基于稀疏表示理论,Li[28]首次尝试从压缩感知的角度提出了遥感图像全色锐化方法。针对高低空间分辨率图像的稀疏表示系数不同的问题,Yin[29]将稀疏表示超分辨率和图像融合的细节注入集成到一个框架内,提出了基于局部自适应稀疏表示的遥感图像融合方法; 李成轶等[30]提出利用冗余字典对图像进行稀疏表示,进行初步的图像超分辨率,然后再利用GS方法进行融合。

在实际的应用中无法直接获取字典学习中所需要的高空间分辨率多光谱图像,针对这一问题,学者们提出了一些解决方法。Yin[31]通过学习字典提取全色图像的空间细节信息,然后将提取的信息与多光谱图像融合得到高质量的融合图像; Li[32]提出了一种基于学习字典稀疏表示的遥感图像融合方法,该方法从源图像中自适应学习全色图像字典和多光谱图像字典。尽管稀疏表示法可以获得较好的融合性能,但由于在融合时需要进行稀疏优化求解,导致其效率较低,限制了稀疏表示融合方法的应用。

目前大部分的深度学习空谱遥感图像融合方法都是基于监督学习,针对不同方法的特性,本文将其分为9大类: 基于残差学习的方法、基于密集连接的方法、基于注意力机制的方法、基于双分支网络结构的方法、基于金字塔网络的方法、基于编码-解码网络的方法、基于两阶段网络的方法、基于多尺度卷积核的方法和其他方法。表2从各类方法的特点和主要网络结构进行了归纳总结。

2   各类监督学习空谱图像融合算法比较

3.1.1 残差学习融合方法

基于残差学习的方法在网络中加入残差连接,使上一个残差块的信息能很好地流入到下一个残差块,提高了信息的流通,避免了由于网络过深所引起的梯度消失和退化问题。

对于结构较深的网络模型,学者们都采用残差连接来进行信息之间的传递。早期的残差学习融合方法包括: Scarpa[33]研究的利用目标自适应策略实现全色锐化的方法和Wei[34]提出的深度残差神经网络方法,都利用残差连接结构深化网络来提高网络性能。Yang[35]提出了一种采用残差网络结构的深度网络模型(PanNet),该方法为了保持光谱,在网络输出中加入上采样的多光谱图像,直接将光谱信息传播到重建图像中。为了保持空间结构,在高通域而不是图像域训练网络参数。

针对现有基于深度学习的空谱图像融合方法空间增强不足的问题,Zhang[36]提出一种基于梯度变换先验的残差学习网络,该方法在融合网络中采用了有效的残差学习设计。光谱信息主要由插值多光谱图像提供,空间信息由学习残差获取。不同于上述方法在融合过程中直接向上采样4,Yang[37]提出了一种渐进级联深度残差网络,该网络包含2个残差子网络,该方法首先采用2次上采样操作,然后利用2个残差子网络学习2个尺度下源图像到参考图像的非线性特征映射,最终实现低空间分辨率多光谱图像和全色图像的逐步融合。

残差学习方法缓解了深度网络中的梯度消失问题,使得能够设计和训练深度神经网络,从而通过增加网络深度来提高融合性能。但当模型深度达到一定程度以后,再增加深度能带来的性能增益较少,并且过深的网络具有较大的计算量和参数量,模型的训练时间更长。

3.1.2 密集连接融合方法

随着网络结构的加深,容易造成信息的流失,为了将信息传递给后面的所有层,基于密集连接的方法将所有层密集连接起来,保证了网络中各层之间最大信息的传递。

Huang[38]提出了一种用于空谱图像融合的密集连接卷积网络结构(densely connected convolutional networks for pan-sharpening,DCCNP),采用了一种有效的密集连接网络结构来解决过拟合和梯度消失问题,同时为了降低网络体系结构的复杂性,密集连接网络的设计体系结构中去掉了批量归一化层; Peng[39]提出了一种基于多尺度密集网络的端到端空谱图像融合方法,设计了一种多尺度密集块从网络的浅层特征中充分提取空间和光谱信息,并设计了全局密集连接,允许从当前多尺度密集块状态直接连接到所有后续多尺度密集块状态,以提取更高级的特征。

与残差学习通过求和来与前面的特征进行融合不同,基于密集连接的网络模型通过串联能够重用前面所有层的特征,进行进一步的特征提取,从而改善特征信息和梯度的流通。由于密集连接网络的特殊结构,宽度不会设置很大,因此需要通过增加层数来保证性能,但过多的层数会使特征图的通道数线性增加,使显存消耗爆炸式增长。

3.1.3 注意力机制融合方法

大多数融合模型都平等地处理不同特征,忽略了不同特征的差异,从而阻碍了卷积神经网络的表示能力。针对该问题,Luo[40]提出了一种通道相似性注意力融合网络,该网络通过堆叠多个通道注意力残差密集块来充分利用鉴别性特征,采用通道注意力使网络关注重要特征,并对其充分利用; 孔爱玲等[41]提出一种基于先验知识的融合方法,利用先验知识来对特征进行逐像素的约束,然后利用通道注意力对特征进行调整。

上述方法中所采用的注意力机制都是通道注意力,学者们还提出了空间注意力和非局部注意力等方法。Zhang[36]采用空间注意力机制沿空间维度加强了对有效特征的关注。为了提高网络提取特征的能力,Jiang[42]将通道注意力机制和空间注意力机制相结合,提出了联合空间-通道混合注意模块。由于卷积运算集中于局部区域,即使在深度网络中,也很难获得全局信息。为了捕获所有像素的相似上下文依赖关系,Lei[43]提出了一种高效的非局部注意力残差网络(nonlocal attention residual network,NLRNet)

基于注意力的方法能够灵活地利用图像不同区域、不同通道甚至不同像素点之间的相似性,自适应地根据重要程度调整特征信息,增强学习能力。但通道注意力将通道内的信息直接进行全局处理,忽略了空间信息交互; 而空间注意力对每个通道进行同样的处理,忽略了通道间的信息交互。非局部注意力虽然能够捕获全局信息,但其计算量大,且对显存的要求高,为了降低计算量而刻意降低通道维度会使性能下降。

3.1.4 双分支网络融合方法

基于双分支网络结构的方法采用2个分支分别提取全色图像和多光谱图像的特征,然后融合所提取的特征重建融合图像。

Shao[44]Liu[45]分别提出的融合网络RSIFNN(remote sensing image fusion with deep convolutional neural network)TFNet( two-stream fusion network)都采用2个分支网络来分别捕捉多光谱图像和全色图像的显著特征; Fu[46]在双分支网络中加入反馈连接来充分利用深度特征的强大表达能力,提出具有反馈连接的双路径网络,可以携带强大的深度特征,并以反馈的方式对浅层特征进行精化。上述方法设计2个网络结构相同的分支来分别提取全色图像和多光谱图像的特征。有些学者采用不同的网络结构对全色图像和多光谱图像进行处理。He[47]提出的光谱感知卷积神经网络中构建了一个双分支结构,包括细节分支和近似分支,该网络采用二维卷积来提取全色图像细节,采用三维卷积来提取光谱信息,减少了二维卷积神经网络模型导致的光谱失真。

由于空谱图像融合需要将信息差别很大的多光谱图像和全色图像同时作为输入,因此双分支网络能够彼此独立地将多光谱图像和全色图像的特征进行提取,但普遍认为多光谱图像中存在空间信息,全色图像中也存在光谱信息,因此双分支网络虽然能够分别提取信息,但忽略了输入图像之间的互补性,导致特征信息提取可能不充分,重建后的融合图像仍可能有空间失真或光谱失真的情况。

3.1.5 金字塔网络融合方法

金字塔是一种典型的多尺度分解方法,广泛应用于图像融合。学者们将金字塔的思想引入到卷积神经网络中构建金字塔网络,一般通过逐层上采样或逐层下采样来实现金字塔的效果。

Zhang[48]提出一种端到端双向金字塔网络,该网络在2个独立分支逐级处理多光谱图像和全色图像,在网络的每一层,将从全色图像中提取的空间细节注入上采样的多光谱图像中; Fang[49]提出了一种平行金字塔网络来实现空谱遥感图像融合,该网络利用不同的分支处理全色图像细节和多光谱图像细节,2个细节分支中引入金字塔网络结构,解决了尺度差异导致的弱相关性问题; 方帅等[50]提出了一种基于深度金字塔网络的遥感图像融合方法,该方法设计两级金字塔网络,将网络分成细节提取和光谱重构2部分。

金字塔网络融合方法过程中会经过多次上、下采样,通过逐层采样能够提取不同尺度下的特征信息,在一定程度上使感受野增大,特征信息的提取更加充分,并且较之一直在同一尺度上训练,金字塔融合方法能够有效减小计算量和参数量。但是任何上采样或下采样的方法都会导致信息的丢失,产生负面影响,甚至采样方法不适当的话,容易造成失真。

3.1.6 编码-解码网络融合方法

编码-解码网络是一种由编码器和解码器构成的对称网络,利用编码器进行特征提取,解码器将提取的特征进一步优化和处理。U-Net结构是一种典型的编码-解码网络[51]

为了满足像素级分析对定位精度和回归过程的抽象能力的要求,Yao[52]采用U型结构来构建网络模型,通过在网络之间建立直接连接,可以保留不同空间分辨率级别对应的图像特征,然后得到这些多分辨率图像特征与目标图像像素值之间的回归关系; Wang[53]提出了一种基于多尺度深度残差网络的空谱图像融合方法,该方法网络结构也是U,通过构建多层次网络来更好地利用源图像的尺度信息; Lai[54]提出了一种充分利用全色图像和多光谱图像层次互补特征的融合网络,通过编码-解码结构和粗细化策略,分别有效地提取全色图像和多光谱图像的多尺度特征。

大多数基于U-Net的编码-解码融合网络都需要多级缩放,编码器提取特征中容易丢失边界信息,虽然会利用跳跃连接来保留原始光谱和空间信息,难以直接通过解码器进行恢复和重建,可能造成空间失真。

3.1.7 两阶段网络融合方法

两阶段网络融合方法首先在第一阶段利用如细节注入、超分辨率等方法对全色图像或多光谱图像进行第一步优化; 然后,在第二阶段进行信息整合,完成融合和重建,这样能够分层次多阶段的提取空间和光谱信息。

Benzenati[55]提出了一种两阶段细节注入方法,第一阶段利用广义拉普拉斯金字塔在像素级预测基于卷积神经网络的注入权重,该阶段将全色图像提取的高频细节注入到多光谱图像中,使光谱信息得到了保存; 第二阶段是对空间质量的提升,利用基于深度残差网络(ResNet)[56]的能力来预测丢失的高频细节。这个阶段在保留光谱特性的同时,在空间细节方面对融合图像进行了改进。

Hu[57]提出的两阶段网络方法由超分阶段和融合阶段构成,利用超分阶段对多光谱图像进行加强,然后通过融合阶段对超分的多光谱图像注入空间细节; Zhang[58]将显著性分析与深度学习相结合,提出了一个显著性级联空谱图像融合神经网络,该网络包括2个阶段,首先采用空洞变形卷积网络来区分对空间和光谱质量有不同需求的区域以便进行显著性分析,然后用显著性级联残差密集网络实现空谱图像融合。

虽然基于两阶段的网络在训练上也是端到端的,但是却人为的分成了2个阶段,而第一阶段的设计需要较强的经验和领域知识,如超分时,需要有基于超分的先验知识来进行处理。

3.1.8 多尺度卷积核融合方法

多尺度卷积核特征提取是深度学习网络中常见的一种方法,采用多个不同大小的卷积核对图像分别进行特征提取,以获得不同范围的特征信息。除了利用不同大小的卷积核来实现多尺度卷积核外,空洞卷积也可以在不增加参数负担的情况下有效地增加感受野。

Li[59]设计了一个多尺度特征提取块来提取全色图像中的空间特征,用不同大小的卷积核对全色图像进行特征提取; Peng[39]Yuan[60]都在多尺度卷积核特征提取模块中加入了残差连接,残差连接可以使变换后的特征图与原始提取的特征保持一致,有效地避免部分失真。上述方法中的卷积核在训练后固定不变,而图像每个位置的空间细节不同,用同样的滤波器对不同的空间位置进行滤波,很难得到满意的细节图像,难以达到良好的锐化效果。Hu[61]提出一种多尺度动态卷积神经网络(multiscale dynamic convolutional neural network,MDCNN),根据输入自适应生成不同大小的卷积核与全色图像进行动态卷积,提取不同尺度的特征,有效提高了网络的融合性能。

上述方法是利用不同卷积核大小来实现多尺度卷积核,Guo[62]引入了一种空洞多级结构,将不同接收域下的特征与局部级联层进行级联,可以充分利用多尺度特征,在不增加计算量的前提下扩大接收域。由于每个像素的空间结构和光谱特征不同,Hu[63]提出了一种空间动态模块来动态提取像素特征,该模块设计了2个互补的分支来提取不同的特征,其中设计了空洞卷积支路来提取多尺度特征,该支路由空洞因子为1,24空洞卷积构成。

不同卷积核具有不同大小的感受野,因此利用多尺度卷积核能够整合不同感受野的信息,但是大卷积核相当于多层小卷积核,计算量和参数量会明显增加。利用空洞卷积实现多尺度卷积虽然不会增加额外的计算量和参数量,但是空洞卷积对图像中较小物体的特征提取困难,且可能由于空洞丢失空间连续信息。空洞卷积增大了感受野,但过大范围的信息可能不相关。

3.1.9 其他方法

除上述方法外,学者们还提出了一些其他的基于深度学习的空谱图像融合方法。Hu[64]提出了一种用于自适应图像全色锐化的深度自学习网络,和一种点扩展函数估计算法来获取多光谱图像的模糊核,并设计了一种基于边缘检测的像素匹配方法来恢复图像之间所产生的局部误配准。

有学者结合深度学习方法与传统方法来实现空谱图像融合。考虑到成分替换法和多尺度分解法的互补性,以综合它们的优势为目标。Liu[65]提出一种全色锐化权值网络对成分替换法和多尺度分解法的融合结果进行自适应加权平均,得到最终融合图像; Deng[66]提出一种基于细节注入的深度卷积神经网络方法,该方法利用传统的成分替换法和多尺度分解法框架进行细节提取,然后利用神经网络进行非线性注入模型估计。2种方法都是深度学习方法与成分替换法和多尺度分解相结合,既利用了神经网络的数据适应性与灵活性,又结合了传统方法的优势。

3.2 无监督学习空谱遥感图像融合

监督学习方法训练过程都需要参考图像,而实际中,参考的高分辨率多光谱图像不存在。为了克制用退化图像训练模型,再用训练好的模型融合原始图像,而退化图像与原始图像的分辨率和尺度不一致,导致退化图像融合过程不能完全反映原始图像融合的问题。学者们提出了直接在原始图像上训练的无监督学习遥感图像融合方法,主要包括生成式对抗网络和无参考损失函数2大类。

生成式对抗网络是Goodfellow[67]提出的一种基于博弈论思想,由生成网络和判别器网络2个神经网络组成的网络。基于生成式对抗网络的无监督学习空谱图像融合的基本框架如图3所示。Ma[68]提出了一种基于生成式对抗网络的无监督学习方法Pan-GAN,在该方法中,生成器分别与光谱判别器和空间判别器建立对抗性博弈,以保持融合图像丰富的光谱信息和空间信息; Zhou[69]提出了一个名为“感知全色锐化”的无监督学习方法,网络结构包括生成器、重构器和鉴别器组成,该方法基于自编码和感知损失,不需要退化图像的训练。

3.3 半监督学习空谱遥感图像融合

无监督方法由于缺乏高分多光谱图像作为监督信号,导致其性能受限。为了克服该问题,学者们结合监督学习和无监督学习,提出了半监督学习融合方法,主要包括退化图像与原始图像联合训练和复合损失函数2大类。

杜晨光等[72]在退化图像融合时采用常规监督训练,在真实图像融合时,由于没有高分辨率多光谱参考图像,设计光谱退化网络和空间退化网络对融合图像进行退化,再训练融合网络,该半监督方法改善了融合性能; Vitale[73]提出了一种跨尺度学习策略,将在模拟图像上所获得的融合结果与真实图像一起输入网络中训练,提高了在真实图像上的融合性能。

除了真实图像和模拟图像联合训练网络来实现半监督学习融合,有学者利用复合损失函数来实现半监督学习。黄珊珊等[74]提出了一种基于条件生成对抗网络的半监督学习图像融合方法,该方法通过设计结合WGAN[75]cGAN[76]损失以及PSNR损失的复合损失函数实现半监督学习。

4 损失函数

4.1 空间损失

均方差损失(mean squared error,MSE)也称为L2损失,是深度学习进行图像重建常用的损失函数,也广泛应用于遥感图像融合。

4.2 光谱损失

多光谱图像具有多个光谱通道,而空间损失是基于逐点的损失,不能反映光谱向量之间的关系。为此,学者们提出了一些光谱损失函数。

受评价指标光谱角映射(spectral angle mapper,SAM)的启发,Hu[57]提出了一种基于光谱向量相关性的损失函数LSAM,通过计算融合图像和真实图像之间向量的余弦得到光谱相似性,量化图像之间的光谱相似程度。

4.3 空谱损失

为了结合空间结构特性和光谱向量相关性,学者们提出了空谱损失函数,最常见的方法是将上述空间损失与光谱损失加权求和。

4.4 感知损失

上述损失函数都是在原图像域进行处理,不能够捕捉到融合图像与参考图像之间的感知区别,导致缺失一些高级的空间语义信息,最终在视觉感知中会存在缺陷。因此,Johnson[81]最先提出了“感知损失”的概念。感知损失利用深度网络提取高层语义特征,通过计算高层特征上的差异作为损失,从而使生成图像能够保存高频信息。

5 实验结果及分析

为了对比传统方法和深度学习方法中的融合性能,以及损失函数对于基于深度学习方法的重要性,在本节给出了相应的实验。实验使用的是8通道WorldView-3卫星图像,14 400幅大小为32像素×32像素的图像对用于训练,36对大小为240像素×240像素的源图像用于测试。同时在模拟图像融合上采用空间相关系数(spatial correlation coefficient,SCC)SAM、相对整体维数综合误差(erreur relative global adimensionnelle de synthèse,ERGAS)、通用图像质量指标Q和第N波段图像融合质量评价指标QN5项指标来对融合结果进行评估[83],在真实图像实验上则是利用QNR对融合结果进行客观定量评价[84]

5.1 融合方法比较

选取了传统方法中的GS[18],BDSD[20]GLP[22],深度学习方法中选取典型的PNN[16],PanNet[35],DCCNP[38],NLRNet[43],RSIFNN[44],TFNet[45],MSDCNN[60],MDCNN[61]SDS[63]一共12种方法进行了实验对比。表3是在WorldView-3数据集上的实验结果。从表3中可以看出,相比传统方法,基于深度学习的方法在整体性能上都有很大的提升。在基于深度学习的方法中,只有简单3层卷积的PNN性能上除了SAMSCC指标比RSIFNN略好以外,其余都较差,说明神经网络的深度对于融合性能具有重要影响。对比PNN,基于残差连接的PanNet以及基于密集连接的DCCNP都表现出更好的性能。基于双分支的RSIFNN由于其网络结构偏重对全色图像空间信息的提取,对于光谱信息的提取存在不足,因此在SAM指标上有所欠缺。而同样基于双分支的TFNet则对于多光谱图像和全色图像做同样的处理,在模拟图像实验上取得了更好的结果。说明对于多光谱图像和全色图像的信息提取同等重要。基于多尺度卷积核的MSDCNN在并没有大幅度增加网络深度的基础上,通过加宽网络宽度来增强网络的表征能力。相较于采用改变网络深度以及宽度的方法来说,基于非局部注意力机制的NLRNet具有比较明显的优势,突出了非局部注意力机制的优势。相较于其他基于静态卷积的方法,MDCNN是基于动态卷积的方法,从性能上看,多项指标优于其他方法。SDS则是基于动态网络的方法,性能更是在MDCNN的基础上进一步提高,说明无论是动态卷积还是动态网络,动态的方法能够明显提升遥感图像融合性能。

3   图像融合算法性能比较①

5.2 不同损失函数融合结果及性能分析

以经典的PNN为网络结构,分析不同损失函数对融合性能的影响。比较的损失函数包括MSE,MAE,SAM[57],SSIM[77-78],MSE+SSIMMAE+SSIM构成的空间损失函数以及不同组合构造的空谱损失函数。损失函数比较实验结果如表4所示。

4   不同损失函数性能比较①

从表4中可以看出,MSE损失函数在整体上给出了比MAE更好的性能。SAMSSIM损失函数都明显较差,两者都不适宜单独作为网络的损失函数。单独使用时,SAM损失函数虽然比其他差,SAM指标达到了最优,因此,SAM损失函数有利于保持光谱信息。类似地,SSIM损失函数的其他指标较差,SCC指标较好,因此,SSIM损失函数有利于空间结构细节重建。MSE+SSIM对比MSE以及MAE+SSIM对比MAE,SCC指标都有一定的提升,真实图像实验的QNR指标提升更明显,进一步证明了SSIM损失函数能够促进空间细节的注入。

在空谱损失函数的实验中,为了简单起见,本文采取的权重系数都为1。相比MSE+SAM,MAE+SAM在性能上具有明显优势,原因可能是MSE+SAM之间直接取权重系数为1并不合适。对比MAE的结果,MAE+SAMSAMQNR指标也有一定的提升,表明SAM损失函数对融合网络提取光谱信息具有重要意义。

根据由3个损失函数构成的空谱损失函数的实验结果,MSE+SAM+SSIM方法比MAE+SAM+SSIM方法的性能更好,但是对比只由2个损失函数构成的空谱损失函数以及单独一个损失函数的方法,简单组合损失函数并不一定能改善网络性能,原因可能是权重系数不合适或者不同损失函数之间可能存在不适配。

根据实验结果,不同损失函数对融合结果都有影响。MSEMAE作为最常用的损失函数,都给出了较好的融合性能,光谱损失函数SAM和空间结构相似性损失函数SSIM也分别针对光谱和空间有一定的优化作用,空谱损失函数也表现出比单独只使用一种损失函数更好的性能。

6 结论与展望

本研究首先介绍了3种传统的经典全色锐化方法,然后介绍和分析了基于深度学习的全色锐化的关键技术,其次着重综述了深度学习在空谱图像融合研究中所获得的成果,分为监督学习、无监督学习和半监督学习3大类进行梳理和总结,并介绍了目前基于深度学习的全色锐化方法中所使用的损失函数,最后对多种经典融合方法以及损失函数做了定量实验和总结分析。尽管基于深度学习的空谱图像融合取得了不错的成果,但仍有许多方向值得进一步研究与探索。

1)图像迁移。现有的空谱图像融合方法的迁移能力普遍较差,不能将在一个卫星数据集上训练的模型迁移到另一个卫星数据集上,也就是需要针对每个卫星分别训练网络,如何在多个卫星图像上同时训练网络,或如何构建一个具有迁移能力的融合模型是一个值得探索的方向。

2)轻量化网络。为了获得更好的融合效果,学者们设计的模型都具有较深的网络结构,这大大提高了模型的复杂度,增加了计算量,并且对于实验设备的要求也比较高。为了在获得更好性能的同时减少计算量,利用动态等思想设计轻量化网络来实现空谱图像融合有着重要意义。

3)神经网络结构搜索。网络结构、深度和宽度等对融合性能具有重要影响,为了获得好的融合性能,学者们往往需要大量的实验才能选择和确定性能较优的网络结构和超参数,并且一般网络模型都具有较深的结构,模型复杂度和计算量都很大。神经网络结构搜索可以实现网络空间搜索,自动生成性能最优的网络结构,可以有效地提高网络性能。因此,将神经网络结构搜索应用于空谱图像融合是一个值得研究的方向。

4)模型与数据驱动结合。目前基于卷积神经网络的融合方法都是数据驱动型,依赖大量的数据进行训练,属于黑箱算法,对其内部的融合过程不甚了解。而模型驱动型方法通过从目标、机理以及先验知识出发设计一个融合过程透明的模型,能够很好地解释模型的可信性。所以将模型与数据驱动结合进行图像融合是一个值得研究的方向。

5)面向高级与多任务的融合。融合图像通常要用于进一步的图像分类和目标检测等高级任务,目前的融合方法主要是基于重构性能设计,没有结合高级任务的特点。因此,结合高级任务设计融合方法具有较强的实际意义。此外,多任务学习能够联合多个相关任务进行学习训练,并且任务之间共享信息,利用多个任务的相关性来提升最终单个任务的性能。在遥感图像融合任务中,可以联合分类和目标检测等高级任务进行多任务学习,例如利用分类任务将遥感图像分成城市、农田等类别和目标检测任务检测桥梁、公路等获取的独特的光谱和空间信息共享到图像融合任务中,从而提高融合任务的性能和泛化能力。因此利用多任务学习来进行遥感图像融合也是一个值得深入研究的问题。

                                            (原文有删减)

【作者简介】胡建文(1985-),,副教授,研究方向为图像处理、深度学习和稀疏表示。Email: hujianwen1@163.com

【】国家自然科学基金项目“高效多任务高光谱遥感图像超分辨率及质量评价研究”(62271087);湖南省自然科学基金项目“基于动态卷积神经网络的遥感图像融合”(2021JJ40609)

【】胡建文, 汪泽平, 胡佩. 基于深度学习的空谱遥感图像融合综述[J]. 自然资源遥感, 2023, 35(1): 1-14.

转自:“测绘学术资讯”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com