投稿问答最小化  关闭

万维书刊APP下载

TMM 2023 | 小样本语义分割新SOTA-FECANet: 基于特征增强的上下文感知网络

2023/2/22 10:01:49  阅读:387 发布者:

以下文章来源于CVHub ,作者派派星

Paper: FECANet: Boosting Few-Shot Semantic Segmentation with Feature-Enhanced Context-Aware Network

PDF: https://arxiv.org/pdf/2301.08160.pdf

Code: https://github.com/NUST-Machine-Intelligence-Laboratory/FECANET

导读

小样本语义分割 旨在通过极少的标注样本来完成新类的识别与分割。我们一般把上述有标签的新类图像称为 Support Image,而其它待分割的新类图像称为Query Image。由于不能学习到细粒度的对应关系,所以现有的一些小样本分割方法通过构造成对的特征相关性来建立一种多对多的匹配,但这类方法仍然存在相关性语义信息缺失和相关性噪声的问题。

为了解决上述问题,本文提出了一种特征增强上下文感知网络(FECANet):首先,作者设计了一个特征增强模块,用以抑制由局部相似性引起的匹配噪声,并增强类内相关性;此外,还提出了一个相关性重建模块,该模块通过编码前景和背景以及多尺度上下文语义特征之间的额外对应关系,显著提高了编码器捕捉可靠匹配模式的能力;最后,通过在 PASCAL-5i COCO-20i 数据集上的实验证明,本文提出的 FECANet 与现有的网络相比,效果提升显著,表现 SOTA

本文主要贡献如下:

提出了一种特征增强模块,用于过滤由类间相似性和类内多样性影响的相关性噪声。该模块在空间和通道维度上为supportquery图像进行信息交互,以增强特征表示。

提出了一种相关性重构模块,该模块编码前景和背景之间的额外对应关系以及多尺度上下文语义特征,显著提高了编码器捕捉可靠匹配模式的能力。

PASCAL-5i数据集和COCO-20i进行的大量实验证明,与当前方法相比,所提出的方法具有最先进的结果。

方法解读

1. Overall architecture of the proposed FECANet

如上图所示,我们采用在ImageNet数据集上训练的模型作为FECANet网络的backbonesupport imagequery image作为一个图像对输入backbone中可提取出一对中间层特征,该中间层特征对我们表示为,表示为特征对(样本对)数量。然后,我们从中间层特征对的集合中选出三对support-query中层特征,并使用掩码mask过滤掉support图像中的背景信息,得到support图像的前景部分,于是特征对就变成了。接下来,将该特征对输入特征增强模块(FEM)以增强该特征对的特征表达;经过特征增强后的特征对又输入到我们的自相关性重建模块(CRM)中用来捕获特征对的上下文语义信息,并为每个语义级别的support-query特征对捕获局部和全局相关性。然后,我们使用4D卷积编码器来分析该种相关性用来进一步捕获视觉对应的相关性,并将它们从底层到顶层进行特征融合。最后,通过对编码器的输出进行平均池化来获取query的特征表示,并将其传递给一个2D解码器进行分割。

特征增强模块

2. Implementation of feature enhancement module

如上图2所示,是一个非常经典的空间注意力与通道注意力的结合,来实现supportquery图像的信息交互与特征增强(空间层面与通道层面)。

该特征增强模块主要通过在querysupport特征之间进行信息交互来增强特征表示。与自注意力机制不同,我们的特征增强模块旨在通过空间层面的信息交互来捕获supportquery特征之间的跨图像语义相似性和差异性。此外,我们注意到每个通道的特征图都可以被视为特定于语义的响应,并且不同通道的语义响应会彼此关联,因此,我们还设计了一个通道注意力模块来重新生成通道权重,并对通道特征重新加权,以增强特征的相关性。

跨图像信息通信(交互)

这里作者提到的跨图像信息通信(交互)其实就是一个QKV在图像层级(supportquery)的一个应用。我们都知道所谓的QKV注意力机制就是训练得到一个加权,并将这个加权施加到图像中像素值的过程。那么这个加权主要是通过QK产生得到,Q指的是Query查询点,K是查询点Q想要与之交互的东西(换句话说就是用于交互产生加权的东西),如果QK来自于自身

进行交互,就是self-attention;如果QK来自不同的

进行交互通信产生权重,就是非self-attentionQK进行信息交互产生了一个权重,将该权重施加到V,便完成了注意力的过程。

如上图2所示,Q来自特征(通过对特征进行一次普通卷积得到了Q),K来自特征(通过对特征进行一次普通卷积得到了K)。所以QK分别代表了querysupport两张不同

的特征,将QK进行一定计算得到一个权重矩阵的过程,其实就是supportquery两张图像进行信息交互的过程(俗称跨图像信息通信)。最后,再将注意力权重矩阵施加到和(和重要的特征得到权重增强,次要特征进行权重弱化),便完成了和的注意力过程,这也就是本文提到的:我们对supportquery图像进行了空间层面的信息交互(QK作用产生了空间层面的注意力权重矩阵),捕获到了supportquery特征之间的跨图像语义相似性和差异性(对和施加了权重矩阵后,得到了注意力后的两个全新的特征图,该全新的特征图相比于和有更强的相似性和差异性)。下面公式展示了QK产生注意力权重矩阵的计算过程:

其中,表示query特征中第个位置与support特征中第个位置交互产生的权重。

图像内通道注意力机制

其实这也是一个很常见的通道注意力机制(SENet),通过对进行一次全局平均池化可以得到一组特征向量,再利用多层感知机MLP(全连接层)为其引入非线性便可以得到一个通道注意力权重向量(重要的通道特征权重大,次要通道的特征权重小),最后再将该通道注意力权重向量施加到经过QKV空间注意力后的特征;也是一样的道理。这就是本文提到的该通道注意力机制是一种图像内的通道注意力机制,通过对通道特征重新加权,增强了特征相关性。下方公式展示了特征增强模块最终的输出计算过程:

这里的Expand函数表示向量扩展操作,将向量扩展到位置嵌入特征的空间大小。

相关性重建模块

本文通过localglobal的方式建立了一个相关性集,相关性重建模块由两部分组成:Dense integral correlationGlobal context correlation

3. Illustration of correlation reconstruction module

Dense integral correlation

如上图3所示,我们从backbone网络中选择几个中间特征来构建密集相关性集。由于中间特征特性包含了supportquery图像中的更加low-level的信息,所以从backbone网络中选择的较为low-level的特征变相提高了编码器学习细粒度对应关系的能力。

具体而言:从backbone网络中的一系列中间特征图中选择L对深度特征,通过使用余弦相似性直接计算第层的每对supportquery特征的相似性。计算公式如下:

其中和表示query中间特征和support中间特征的2维空间相对位置。

最后,我们沿着通道维度连接具有相同空间大小的4D相似性张量以构建相关性集。我们在相关性集中获得了三种密集的相关,并将它们划分为三个不同的语义层

Global context correlation

在这部分中,我们提出了一种新的局部自相似性(local self-similarity generation)方法,该方法将局部空间语义特征编码为上下文向量特征,以获得全局上下文特征图。此外,引入多尺度上下文指引(multi-scale guidance structure)来捕获更全局和复杂的上下文特征。

对于local self-similarity generation,我们计算特定大小的局部相邻区域内每个空间位置的相似度,以生成自相似性。该自相关性特征图具体计算方式如下:

其中,和分别表示特征图和对其padding之后的特征图的空间位置,表示局部邻域的尺寸,表示由特征图中空间位置所产生的自相关性向量,而表示由组成的的自相似性特征图。

Multi-scale guidance

由于局部区域的大小限制了上述自相似特征图的通道数量,因此很难包含更广泛的上下文语义信息。我们利用多尺度自相似性来进一步提取上下文语义信息,并捕获更复杂的自相似性特征。我们的多尺度相似性可以提供更大的局部接受域和更丰富的上下文语义信息。

具体而言,使用两个连续卷积层和来细化自相似性特征图SS,分别产生和,而后,我们通过上采样将,和进行concat进而产生了多尺度上下文语义特征,这一过程可表示如下:

全局上下文关系矩阵可通过如下公式计算:

其中,和分别表示和在第层的多尺度上下文自相似性矩阵。

CRM中,我们获得的区域到区域和像素到像素的相关性可以有效地促进编码器学习更全面和更深入的模式匹配关系。

最后我们将和多尺度全局上下文相似性沿着通道维度进行element-wise操作。最后,我们将其输入到的4D卷积编码器中,以分析querysupport图像之间的不同语义级别的对应关系。

实验结果

Performance on PASCAL-5i and COCO-20i in mIoU and FB-IoU

Ablation studies on K-shot setting

Ablation studies on the effect of different components.

Detailed ablation studies on FEM

Example result on PASCAL-5i dataset for component analysis

Example result on PASCAL-5i dataset for comparison with HSNet

Detailed ablation studies on CRM

Ablation studies on the effect of correlation construction

结论

本文向大家介绍了一种新颖的小样本语义分割方法——FECNet,其包含一个特征增强模块,通过在 support query 特征之间进行信息交互来过滤受局部相似性和类内多样性影响的相关性噪声,从而为编码器学习适当的特征关系匹配提供良好的指导。此外,为了进一步提升基于 CNNs 的编码器对类内变换的鲁棒性,作者额外引入了一种基于自注意力机制的方法将全局上下文信息嵌入到相关性矩阵当中。最后,通过在 PASCAL-5i COCO-20i 数据集上的大量实验充分证明了所提出方法的优越性。

转自:arXiv每日学术速递”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com