投稿问答最小化  关闭

万维书刊APP下载

佳文分享| TGRS:Swin Transformer 嵌入UNet用于遥感图像语义分割

2023/6/5 15:12:40  阅读:230 发布者:

简讯:全局上下文信息是遥感图像语义分割的关键。现有的大多数方法都依赖于卷积神经网络(CNN),然而,由于卷积操作的局部性,直接获取全局上下文具有挑战性。受Swin transformer的启发,本文将Swin transformer嵌入到经典的基于CNNUNet中,提出了一种新的遥感图像语义分割框架ST-UNet。该框架通过建立像素级相关性来编码Swin变压器块中的空间信息,以增强遮挡对象的特征表示能力,并利用特征压缩模块(FCM),减少了Swin变压器patch token下采样中细节信息的丢失,压缩了更多的小尺度特征,提高了小尺度地物的分割精度。本文提出的ST-UNet首次将Swin变压器应用到RS图像分割任务中,弥补了纯CNN的不足,提高了分割精度。相关成果与具体内容已经发表在IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING

1.研究背景:

随着航天技术和传感器技术的快速发展,研究人员可以轻松收集到大量高质量的遥感(RS)图像,这些图像反映了生态环境的状态和人类活动的痕迹。学习这些图像中包含的知识,有效筛选感兴趣的信息,成为遥感图像智能解译的重点。语义分割作为一种可行的解决方案受到了广泛的关注。它的核心目标是识别图像中每个像素的语义类别,并成功应用于许多现实场景,如城市规划,灾害评估,农业生产。

近年来,卷积神经网络(CNN)的快速发展为语义分割提供了技术支持。在此过程中,编码器-解码器结构表现出优异的分割性能,逐渐成为语义分割网络中流行的结构配置。编码器用于提取特征,解码器在融合高级语义和低级空间信息的同时,尽可能精细地恢复图像分辨率。然而,地物的特殊性(尺度小、相似性高、相互遮挡)RS图像的语义分割提出了新的挑战,如图1所示。

图一. RS图像特征示例,其中第一行图像取自ISPRS Vaihingen数据集,第二行图像取自ISPRS Potsdam数据集。(a)屋顶天窗的外观与“汽车”和“不透水表面”相似。(b)“建筑物”和“不透水表面”的材料相同,“树木”在“低植被”中几乎看不见。(c)“车”的大部分被“树”遮住了。

在语义分割过程存在以下难点:1.基于CNN的模型在特征提取过程中进行特征下采样以减少计算量,容易导致小尺度特征被丢弃。2.具有不同语义类别的地物可能具有相似的尺寸、材质和光谱特征,难以区分。3.遮挡问题通常会导致语义歧义,需要更多的全局上下文信息和精细的空间特征作为语义推理的线索。

已有的方法是大多从CNN获得的局部特征中聚合全局信息,而不是直接对全局上下文进行编码。因此,从复杂背景的RS图像中很难获得清晰的全局场景信息。最近,transformer的成功为全局关系建模开辟了新的研究思路。

2.研究方法:

ST-UNet的整体架构如图2所示。ST-UNetSwin变压器和UNet的混合体,它继承了UNet的优良结构,采用跳跃式连接层连接编码器和解码器。其中,ST-UNet构造了由基于CNN的残差网络和Swin变压器组成的双编码器,包含三个重要模块, 进一步提高了Swin变压器的性能,能够充分获取RS图像的判别特征。

2. ST-UNet的整体架构

1)空间交互模块(SIM

Swin transformer在有限的窗口内建立patch token关系,有效地减少内存开销。然而,这种方法在一定程度上削弱了转换器的全局建模能力,即使它采用了规则窗口和移位窗口的交替执行策略。此外,遥感图像中地物的遮挡导致边界模糊,这就需要消除一些空间信息。因此,本文提出了跨W-TransSW-Trans区块的SIM,以进一步增强信息交换,同时编码更精确的空间信息。SIM在两个空间维度上引入注意力,考虑像素之间的关系,而不仅仅是补丁标记,使得转换器更适合图像分割任务。SIM的组成如图3所示。

3. SIM的组成。

2)特征压缩模块(FCM

transformer在前期工作中,通过将图像patch展平、映射或合并并进行线性处理,形成了一个层次网络。但是,这些方法容易导致大量细节和结构信息的丢失,不利于物体密集、小尺度的RS图像的语义分割。因此,本文在Swin变压器的patch token下采样中设计了FCM,避免了上述问题,从而提高了小尺度对象的分割效果。FCM有两个分支,如图4所示。

4. FCM的组成。

3)关系聚合模块(RAM)

基于CNN的主编码器在空间维度上提取了受卷积核限制的局部信息,但缺乏对信道维度之间关系的显式建模,当对象具有相似的分布模式但不同的信道时,可能会造成混淆。一些方法已经证明对信道维度的依赖进行编码可以提高特征识别能力。因此,本文提出了RAM,其具体结构如图5所示。为了从整个特征图中强调重要且更具代表性的信道,本文从辅助编码器的全局特征中提取信道依赖关系,然后将其嵌入到从主编码器获得的局部特征中。此外,RAM引入了可变形卷积以适应不同形状的目标区域,并进一步细化了主编码器的特征。通过RAM,本文可以编码更多的全局判别特征,以提高RS图像中高相似地物的分割精度。

5. RAM的组成。

3.研究结果:

1)消融实验

为了评估所提出的网络结构和三个重要模块的性能,本文将UNet作为基线网络,在Vaihingen数据集上进行消融实验。此外,本文还研究了损失函数对所提出的网络的影响。在ST-UNet中,主编码器采用半压缩的ResNet50,辅助编码器采用“Tiny”配置的Swin变压器(即隐藏大小C1 = 96,窗口大小为8,每级对应的层数为{2,2,6,2},每层对应的头数为{3,6,12,24})。实验结果显示:1)双编码器可以通过级联的层次结构聚合更多有利于语义预测的信息。2)使用RAM后避免了光线变化和屋顶天窗造成的分割误差,利用RAM嵌入更多的全局上下文信息后,可以有效提高高相似度对象的分割精度。3SIM的引入有效地减小了物体相互遮挡的负面影响。4FCM方法有利于提高小尺度地物分割精度。

2)与其他算法对比

a. Vaihingen数据集的结果

结果表明,本文提出的ST-UNetMIoUAve.F1中均优于其他方法。扩展卷积的Deeplab V3+和金字塔结构的UperNet通过扩大接受场获得全局上下文信息,DANet采用双重注意机制。实验数据表明,具有双重注意机制的UperNetDANet在全局环境建模方面不如本文的ST-UNet

1基于vaihingen数据的分割结果比较

b. 波茨坦数据集结果

ST-UNetMIoU上达到75.97%,在Ave.F1上达到86.13%,优于其他方法。由于规模和数据类型的不同,波茨坦数据集的分割精度通常高于V aihingen数据集。需要注意的是,TransUNet混合结构的分割精度超过了表2中基于CNN的模型。这验证了基于CNN的模型在描述全局依赖关系时存在一定的局限性。

2波茨坦数据分割结果的比较

c.计算效率

为了综合比较,表3列出了所有型号在相同运行环境下的速度和参数。表VSpeed表示模型每秒处理的图像数量,单位为帧/(frames per second, FPS)。在计算效率(速度)方面,具有transformerSwin变体的模型普遍低于其他纯CNN结构的模型。

3模型参数、速度和精度的比较

4.研究结论

本文致力于从遥感图像中获取全局上下文信息,以提高地物的特征识别能力。结合Swin transformerUNet,构造了一个具有双编码器结构的ST-UNet语义分割框架。具体来说,所提出的关系聚合模块使用全局特征来指导主编码器获得更具鉴别性的特征。此外,进一步设计了SIMFCM,以提高Swin变压器的全局建模能力。SIM建立了像素级的信息交换,消除了Swin转换器中窗口的限制,缓解了遮挡引起的语义模糊问题。FCM在小范围对象的补丁令牌下采样中保留尽可能多的详细特征。但是,ST-UNet在地物边界提取上存在不足,主要表现为分割结果不能完全拟合地物形状,边界线不光滑。未来将进一步探索边界特征的编码方法,以克服这一限制。此外,还将致力于模型压缩,以提高推理效率。

5.引用格式

X. He, Y. Zhou, J. Zhao, D. Zhang, R. Yao, and Y. Xue, Swin Transformer Embedding UNet for Remote Sensing Image Semantic Segmentation,IEEE Trans. Geosci. Remote Sens., vol. 60, pp. 1-15, 2022.

转自:“科研圈内人”微信公众号

如有侵权,请联系本站删除!


本文评论

暂无相应记录!

首页<<1>>尾页共0页共0条记录
  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com