CVPR2023 | FastInst：一种简单的基于查询的实时实例分割模型

2023/6/2 15:32:53　阅读：122　发布者：

以下文章来源于FightingCV ，作者努力努力再努力的

【写在前面】

最近对实例分割的关注集中在基于查询的模型上。尽管这些模型是无最大抑制(NMS)和端到端的，但它们在高精度实时基准上的优势还没有得到很好的证明。在本文中，我们展示了基于查询的模型在有效的实例分割算法设计方面的强大潜力。我们提出了一种简单有效的基于查询的实时实例分割框架FastInst。FastInst可以以实时速度(即32.5 FPS)执行，同时在COCO测试开发上产生超过40的AP(即40.5AP)，而不会有花哨的效果。具体地说，FastInst遵循最近引入的Mask2Former的元体系结构。它的关键设计包括实例激活引导的查询、双路径更新策略和地面真实掩码引导学习，使我们能够使用更轻的像素解码器，更少的Transformer解码器层，同时实现更好的性能。实验表明，FastInst在速度和精度方面都优于大多数最先进的实时同行，包括强大的完全卷积基线。

1. 论文和代码地址

论文题目：FastInst: A Simple Query-Based Model for Real-Time Instance Segmentation

论文地址：https://arxiv.org/abs/2303.08594[1]

2. 动机

实例分割的目的是分割图像中所有感兴趣的对象。MaskR-CNN等主流方法遵循检测-再分割的设计。尽管这些方法简单直观，但它们生成了大量重复的区域方案，从而引入了多余的计算。为了提高效率，出现了许多建立在完全卷积网络(FCN)基础上的单级方法。它们端到端地分割对象，而不使用面域方案。这种方法的推理速度很吸引人，特别是在实时场景中。然而，由于预测密集，经典的单级方法仍然依赖于人工设计的后处理步骤，如非最大值抑制(NMS)。

最近，随着DETR在目标检测方面的成功，基于查询的单阶段实例分割方法应运而生。他们没有卷积，而是利用多功能和强大的注意机制与一系列可学习的查询相结合来推断对象类和分割掩码。例如，Mask2Former通过在主干上添加一个像素解码器和一个MaskedatAttension Transformer解码器来简化实例分割的工作流程。与以前的方法不同，Mask2Former不需要额外的手工组件，如训练目标分配和NMS后处理。Mask2Former虽然简单，但也有其自身的问题：(1**)它需要大量的解码层来解码对象查询，因为它的查询是静态学习的，需要很长的过程来精炼；(2)它依赖于重型像素解码器，例如多尺度可变形注意力转换器(MSDeformAttn)，因为它的对象分割掩码直接依赖于像素解码器的输出;(3)掩蔽注意限制了每个查询的接受域**，这可能会导致Transformer解码器陷入次优的查询更新过程。虽然Mask2Former取得了出色的性能，但其在快速、高效的实例分割方面的优势尚未得到很好的展示，这对许多现实世界的应用仍然至关重要，如自动驾驶汽车和机器人。事实上，由于缺乏先验知识和注意机制的高计算复杂性，基于查询的模型的效率通常不能令人满意。高效的实时实例分割基准测试仍然由基于卷积的经典模型主导。

在本文中，我们通过提出一种简洁有效的基于查询的实时实例分割框架FastInst来填补这一空白。我们证明了基于查询的模型能够在保持较快速度的情况下获得优异的实例分割性能，在高效的实例分割算法设计方面显示出巨大的潜力。例如，我们设计的使用ResNet-50主干的最快基于查询的模型在COCO测试开发上达到了35.6 AP，速度为53.8 FPS(每秒帧数)，在单个V100 GPU上进行了评估(参见图1)；此外，我们的最佳权衡模型可以以实时速度执行，即32.5 FPS，而产生的AP超过40，即40.5 AP，据我们所知，这在以前的方法中尚未实现。

具体地说，我们的模型遵循Mask2Former的元体系结构。为了实现高效的实时实例分割，我们提出了三个关键技术。首先，我们使用实例激活引导的查询，它动态地从底层特征映射中挑选语义较高的像素嵌入作为Transformer解码器的初始查询。与静态的零或可学习的查询相比，这些选取的查询包含了丰富的潜在对象的嵌入信息，减少了Transformer解码器的迭代更新负担。其次，我们在Transformer解码器中采用了双路径结构，其中查询特征和像素特征交替更新。这样的设计增强了像素特征的表示能力，省去了繁重的像素解码器设计。此外，它在查询特征和像素特征之间进行直接通信，加快了迭代更新的收敛速度，有效地降低了对解码层数的依赖。第三，为了避免被掩蔽的注意力陷入次优的查询更新过程，我们引入了地面真实掩码引导学习。我们用最后一层二部匹配地面真值掩码替换标准掩码注意中使用的掩码，再次转发变压器译码，并使用固定的匹配任务来监督输出。该指导允许每个查询在训练期间看到其目标预测对象的整个区域，并帮助掩蔽注意力在更合适的前景区域内参与。

我们在具有挑战性的MS Coco数据集上评估FastInst。如图1所示，FastInst在保持快速的同时，在COCO基准上获得了强劲的性能，超过了大多数以前最先进的方法。我们希望FastInst能够作为实时实例分割的新基线，并推动基于查询的实例分割模型的发展。

3. 方法

3.1. Overall architecture

如图2所示，FastInst由三个模块组成：主干、像素解码器和转换器解码器。

3.2. Lightweight pixel decoder

多尺度上下文特征映射对于图像分割是必不可少的。然而，使用复杂的多尺度特征金字塔网络增加了计算负担。与以前的方法直接使用来自像素解码器的底层特征映射不同，我们使用Transformer解码器中的细化像素特征来产生分割掩码。这种设置降低了像素解码器对繁重的上下文聚合的要求。因此，我们可以使用轻量级像素解码器模块。为了更好地权衡精度和速度，我们使用了一种名为PPM-FPN[11]的变体，而不是香草FPN，后者在C5之后采用金字塔合并模块[49]来扩大接受范围以提高性能。

3.3. Instance activation-guided queries

对象查询在Transformer体系结构中扮演着至关重要的角色。DETR收敛慢的原因之一是它的对象查询是零初始化的。尽管可学习查询[9]缓解了这个问题，但它们仍然是独立于图像的，需要许多Transformer解码层来改进。受Deformable DETR[51]从金字塔特征中选择查询边界框进行目标检测的启发，我们提出了实例激活引导的查询，该查询直接从底层多尺度特征地图中挑选语义较高的查询。具体地说，在给定像素解码器的输出特征图的情况下，我们在特征图E4的顶部添加辅助分类头部，随后进行软最大激活，以针对每个像素产生类别概率预测pi∈∆K+1，其中∆K+1是(K+1)维概率单纯形，K是类别的数量，对于“无对象”(∅)加1，i是像素索引，并且辅助分类头部由分别具有3×3和1×1核大小的两个卷积层组成。通过pi，我们得到每个像素的前景概率pi，ki，ki=argmax kpi，kpi，k∈pi，k∈{1，···，K}。然后，我们从前景概率较高的特征图E4中选择Na个像素嵌入作为对象查询。这里，我们首先选择具有pi，ki是对应类平面中的局部最大值的像素(即，pi，ki≥pn，ki，n∈δ(I)，其中δ(I)是i的空间8邻域索引集)，然后挑选在{pi，ki}i中具有最高前景概率的那些。注意，在对应类平面中具有非局部最大概率的像素意味着在其8邻域中存在具有较高类概率分数的像素。由于位置如此接近，我们自然更喜欢选择其邻近的像素作为对象查询。

在训练过程中，我们使用基于匹配的匈牙利损失来监督辅助分类头。与使用先前锚盒和二进制分类分数来处理匹配问题的不同，我们简单地使用带有位置成本Lloc的类别预测来计算分配成本。位置代价Lloc被定义为当像素位于该对象的区域时为0的指示器函数；否则为1。该代价背后的直觉是，只有落在对象内的像素才有理由推断该对象的类和掩码嵌入。此外，位置代价减少了二部匹配空间，加快了训练收敛。

我们将上述策略生成的查询称为实例激活引导(IA引导)查询。与零或可学习的查询相比，IA引导的查询在初始时保留了关于潜在对象的丰富信息，并提高了Transformer解码器中查询迭代的效率。请注意，我们还可以选择查询。较大的功能地图包含更丰富的实例线索，但会承受更重的计算负担。我们使用中等大小的要素地图E4进行权衡。

3.4. Dual-path Transformer decoder

在从底层特征图中选择Na IA引导的查询后，我们将其与NB个辅助可学习查询连接起来，以获得总的查询Q，其中辅助可学习查询用于促进对背景像素特征的分组，并在后续的双重更新过程中提供与图像无关的一般信息。然后，将总查询Q与平坦化的1/8高分辨率像素特征X相结合，馈送到Transformer解码器。在Transformer解码器中，我们为查询Q和像素特征X添加位置嵌入，随后是连续的Transformer解码层来更新它们。一个Transformer解码层包含一个像素特征更新和一个查询更新。整个过程就像一个EM(期望最大化)聚类算法。E步：根据像素特征所属的中心(查询)更新像素特征；M步：更新聚类中心(查询)。与单路径更新策略[9]相比，双路径更新策略同时对像素特征和查询进行了优化，减少了对重像素解码器的依赖，获得了更细粒度的特征嵌入。最后，我们使用细化的像素特征和查询来预测每一层的对象类和分割掩码。（具体见原文）

3.5. Ground truth mask-guided learning

尽管掩蔽注意引入了先验稀疏注意知识，加速了模型的收敛，提高了性能，但它限制了每个查询的接受范围，并可能导致Transformer解码器陷入次优查询更新过程。为了缓解这个问题，我们引入了地面真相(GT)掩蔽引导学习。（具体见原文）

3.6. Loss function

4.实验

5. 总结

我们提出了FastInst用于实时实例分割。FastInst建立在基于查询的分割框架的基础上，并设计了三个有效的组件，即实例激活制导的查询、双路径更新策略和地面真相掩码制导学习，在保持快速推理速度的同时，在流行的CoCo数据集上取得了优异的性能。广泛的实验证明了核心思想的有效性和FastInst相对于以前最先进的实时同行的优越性。我们希望这项工作能够为实时实例分割提供一个新的基线，并促进基于查询的图像分割算法的发展。

更多细节请参考原文！

参考资料

[1]

https://arxiv.org/abs/2303.08594: https://arxiv.org/abs/2303.08594

转自：“arXiv每日学术速递”微信公众号

如有侵权，请联系本站删除！

上一篇： RestoreDet：低分辨率图像中目标检测
下一篇： CVPR 2023 | 从虚拟标记中估计三维人体网格

投稿问答最小化 关闭

CVPR2023 | FastInst：一种简单的基于查询的实时实例分割模型

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

CVPR2023 | FastInst：一种简单的基于查询的实时实例分割模型

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭