投稿问答最小化  关闭

万维书刊APP下载

PPMN:用于一阶段全景叙事Grounding的像素短语匹配网络

2023/4/18 10:25:45  阅读:99 发布者:

以下文章来源于FightingCV ,作者努力努力再努力的

PPMN:用于一阶段全景叙事Grounding的像素短语匹配网络

1. 论文和代码地址

论文题目:PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding

论文地址:https://arxiv.org/abs/2208.05647[1]

代码地址:https://github.com/dzh19990407/PPMN[2]

2. 动机

全景叙事基础(PNG)是一个新兴的任务,其目标是分割事物的视觉对象和由静止图像的密集叙事字幕描述的事物类别。先前的两阶段的方法首先通过现有的全景分割模型提取分割区域建议,然后进行粗略的区域-短语匹配以确定每个名词短语的候选区域。然而,双阶段的方法往往会受到第一阶段的proposal提取器的性能限制以及区域特征池化导致的空间细节损失等问题,因为,作者提出了端到端训练的单阶段模型PPMN,模型可以从密集注释的像素-短语对而不是稀疏的区域-短语对的监督中找到足够和更精细的跨模态语义对应

3. 方法

双阶段与单阶段方法对比:

Feature Extraction

对于视觉模态,论文使用带有ResNet-101骨干的FPN作为图像编码器来提取多尺度特征映射,为了增强位置信息,论文增加了正弦信号的位置编码。然后输入语义FPN neck获得了最终的视觉特征图,该特征图具有较强的语义表示和较低的局部细节。在语言模态面,论文使用BERT作为文本编码器,将叙述性字幕的每个单词编码为实值向量

Pixel-Phrase Matching Formulation

对于像素-短语匹配,论文直接计算所有像素和所有名词短语之间的响应值,并通过这些响应值来对名词短语对应的像素进行分组。

论文首先通过线性层将视觉特征还有短语特征投射到相同维数的子空间。然后将视觉特征reshape后与文本特征进行矩阵乘法从而获取所有像素和所有名词短语之间的对应映射,具体公式如下所示:

然后,通过二元交叉熵损失函数,计算GT mask和预测的mask的损失从而训练像素-短语匹配网络,具体损失函数如下所示:

然而,由于BCE Loss将每个像素分开处理,因此不能处理前景-背景样本不平衡问题。于是论文还采用了Dice Loss来缓解这一问题。

总的损失函数可以如下表示:

Language-Compatible Pixel Aggregation

为了赋予短语特征更强的辨别能力,论文提出了Language-Compatible Pixel Aggregation (LCPA) 模块。这个流程可以由下述公式描述:

然后在第l轮次,通过一种自适应的最大池层得到索引,最后通过索引从中采样符合要求的像素特征。接下来,论文通过多头跨模态注意机制(MCA),聚合每个名词短语最相容的像素特征的视觉上下文来增强每个名词短语的区分能力

在对每个短语分别应用MCA(·)后,我们将所有的精化短语特征拼接在一起,并将它们馈送到标准前馈网络(FFN)中,以获得精化短语特征

最后,论文将和投射到相同的子空间,然后通过矩阵乘法和激活函数得到两者的映射图。在训练阶段,为了充分监督LCPA模块的学习,所有模块,因此模型的整体损失函数如下所示:

4.实验

5. 总结

论文提出了一个简单而有效的单阶段框架,可以对全景叙事接地(PNG)进行端到端优化。此外,它还可以将模型从间接的两阶段基线和繁琐的人工设计的训练/推理管道所造成的性能瓶颈中解放出来。

参考资料

[1]

https://arxiv.org/abs/2208.05647: https://arxiv.org/abs/2208.05647

[2]

https://github.com/dzh19990407/PPMN: https://github.com/dzh19990407/PPMN

转自:arXiv每日学术速递”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com