投稿问答最小化  关闭

万维书刊APP下载

CVPR2022 | 三维点云联合密集字幕和视觉grounding的统一框架

2023/4/3 13:31:43  阅读:106 发布者:

以下文章来源于FightingCV ,作者努力努力再努力的

CVPR2022 | 三维点云联合密集字幕和视觉grounding的统一框架

【写在前面】

观察到3D字幕任务和3D接地任务本质上包含共享和互补的信息,在这项工作中,我们提出了一个统一的框架,以协同的方式共同解决这两个截然不同但密切相关的任务,包括共享任务无关模块和轻量级任务特定模块。一方面,共享的任务不可知模块旨在学习对象的精确位置、表征不同对象的细粒度属性特征以及对象之间的复杂关系,这对字幕和视觉基础都有好处。另一方面,通过将两个任务中的每一个都转换为另一个任务的代理任务,轻量级任务特定模块分别解决了字幕任务和接地任务。在三个3D视觉和语言数据集上的广泛实验和烧蚀研究表明,我们的联合训练框架在每个单独的任务上都取得了显著的性能提升,最终提高了字幕和接地任务的最新性能。

1. 论文和代码地址

论文题目:3DJCG: A Unified Framework for Joint Dense Captioning and Visual Grounding on 3D Point Clouds

2. 动机

3D视觉理解和自然语言处理的交叉领域,如3D密集字幕和3D视觉基础,人们的研究兴趣越来越大。这两个任务推动交叉领域沿着不同的方向前进(即从视觉到语言,而不是从语言到视觉),通过分别解决每个任务,取得了令人鼓舞的进展。是否有可能制定一个统一框架,以协同方式共同解决这两项密切相关的任务,这仍然是一个悬而未决的问题。

我们观察到,这两个3D视觉语言任务本质上既包含共享的信息,又包含互补的信息,如果我们将一个任务视为另一个任务的代理任务,则有可能提高两个任务的性能。这两个任务中的每一个都可以分解为几个子任务,其中一些子任务共享共同的目标和网络结构。3D密集字幕和3D视觉基础都需要:1)3D对象检测器来检测3D场景中的显著对象提议,2)关系建模模块来对这些检测到的对象之间的复杂3D关系进行建模,以及3)多模式学习模块来从视觉特征和文本特征两者中学习融合信息以基于每个输入句子来生成句子或产生边界框。另一方面,相反的过程也被用来分别解决这两个问题,即字幕任务是从检测到的框中生成有意义的文本描述(即从视觉到语言),而grounding任务是通过理解给定的文本描述来定位期望的框(即从语言到视觉)

此外,RGB-D扫描生成的3D点云往往包含不同对象之间丰富而复杂的关系,而对应的RGB数据提供了更细粒度的属性信息,如颜色、纹理和材质。因此,RGB-D扫描本质上包含丰富的属性和关系信息,用于增强3D字幕和3D基础任务。然而,我们观察到,3D密集字幕任务更面向对象,倾向于了解场景中目标对象(即感兴趣对象)的更多属性信息,并且仅了解目标对象与其周围对象之间的主要关系。相比之下,3D视觉接地任务更注重对象之间的关系,并根据对象之间的关系区分不同的对象(特别是来自同一类的对象)。因此,希望开发一种联合框架来统一3D密集字幕和3D视觉基础任务,并相互利用以提高这两个任务的性能。

为此,在这项工作中,我们提出了一个联合框架。具体地说,该框架由三个主要模块组成:(1)3D对象检测器,(2)属性和关系感知特征增强模块,(3)特定于任务的接地或字幕头。具体地说,3D对象检测器和特征增强模块是与任务无关的,它们被设计为协作地支持字幕和接地任务。这两个模块输出对象提案作为场景中潜在对象的初始定位结果,以及通过集成来自每个对象提案的属性信息和多个提案之间的复杂关系来输出提案内的改进特征。通过强任务无关性模块,任务专用字幕头和接地头被设计为处理每个任务的轻量级网络,由基于转换器的轻量级模块和简单的预处理模块(即查询/关键字/值生成模块)和轻量级后处理模块(即单词预测或边界框选择模块)组成。这样,3D字幕和3D视觉接地任务可以作为彼此的代理任务来投射。换句话说,更面向对象的字幕任务可以提供更多的属性信息,从而潜在地提高基础性能,而更面向关系的基础任务可以通过使用更多的关系信息来增强字幕任务,从而帮助改善字幕结果。此外,我们的联合框架还启发了每个独立字幕网络和接地网络的设计见解。

3. 方法

在本节中,我们将描述我们框架的技术细节。如图1(A)所示,我们的框架由三个模块组成:1)对象检测模块,2)属性和关系感知特征增强模块,3)特定于任务的字幕头和基础头。目标检测模块和特征增强模块与任务无关,并由两个任务共享。字幕和接地磁头是特定于任务的,基于轻型变压器的网络结构分别用于字幕和接地任务。具体地说,VoteNet[31]目标检测模块使用改进的包围盒建模方法对点云进行编码,以更精确地定位显著目标并产生初始目标建议。然后通过与任务无关的属性和关系感知的特征增强模块对提案特征进行增强,以生成增强的对象提案。然后,将增强的对象建议分别馈送到密集字幕任务和视觉基础任务的字幕头和基础标题中,并为每个任务生成最终结果。

3.1. Detection Module

检测模块的输入是点云,它用3D坐标和K维辅助特征表示整个3D场景。这里,我们采用132维辅助特征,包括预先训练的128维多视点外观特征、三维法线和每个点离地面的一维高度。我们使用VoteNet作为我们的检测模块。由于字幕和基础任务的成功都依赖于初始对象提案的精确定位和区别性特征,因此我们借鉴了无锚点FCOS方法的思想,通过预测投票点到对象提案两侧之间的距离来生成初始对象提案。

3.2. Attribute and Relation-aware Feature Enhancement Module

由于检测相关的损失,由检测模块产生的初始对象建议特征对于不同的对象类是有区别的。然而,他们不知道细粒度的对象属性(例如,对象位置、颜色和材料),特别是对于类内对象,以及不同对象之间的复杂关系,这些都是3D字幕和3D基础任务成功的关键。因此,我们进一步提出了一种属性和关系感知的特征增强模块,以加强每个提案的特征,并更好地建模提案之间的关系。受Transformer编码器结构的启发,我们将建议的特征增强模块建模为两个多头自关注层,并增加了属性编码模块和关系编码模块,其中属性或关系编码模块由多个完全连通的层组成。

属性编码模块

为了聚合属性特征和初始对象特征,我们使用全连通层将辅助包围盒属性相关特征(即通过27维盒中心和角坐标的拼接操作得到的155维特征,以及潜在包含颜色和材质等属性信息的128维多视角RGB特征)编码为128维属性嵌入。属性嵌入与初始对象建议特征具有相同的维度。然后可以将其添加到初始建议特征,以使用更多的属性信息来增强初始对象特征。

关系编码模块

我们还对任意两个对象建议之间的成对距离进行编码,以捕捉复杂的对象关系。为了更好地捕捉不同方向上的对象关系,我们不仅对()相对欧氏距离(DistRm×M×1)进行编码,还对初始对象建议的任意两个中心沿xyz方向的三对距离(DxDyDzRm×M×1)进行编码,其中M是初始对象建议的个数。然后,所有四个空间邻近度矩阵(DxDyDzDist)沿通道维度聚合,并馈送到完全连通的层中,以产生通道维度H与多头注意模块中的注意头数量(即,在我们的实现中,H=4)匹配的关系嵌入。然后,将每个关系嵌入(大小为M×M×1)与从多头自我注意模块的每个头部生成的相似度矩阵(即所谓的注意图)相加。

与任务无关的3D对象检测器和特征增强模块可以为字幕和接地任务产生更准确的定位结果和改进的对象特征,因此我们可以在我们的框架中使用比最先进的方法更简单的更轻量级的特定于任务的字幕头和接地头。对于这两个特定任务的头部,我们采用了类似的轻量级一层多头部交叉注意网络结构,以及简单的预处理模块(即图2所示的查询//值生成)和后处理模块(即单词预测或BBox选择)

3.3. Captioning Head

见原文

3.4. Grounding Head

见原文

3.5. Training details

见原文

4.实验

5. 总结

观察到3D密集字幕和3D视觉基础这两个不同但密切相关的任务的共同和互补特性,我们提出了一个统一的框架,以协同的方式共同解决这两个任务。在我们的框架中,与任务无关的模块负责精确的对象定位,增强几何和细粒度的属性特征,以及充分探索3D场景中对象之间复杂的几何关系,而特定于任务的轻量级字幕头和地面头分别解决这两个任务。实验结果验证了该框架对这两种任务的有效性。虽然联合框架提高了两个任务的性能,但视觉接地任务的性能改善不如密集字幕任务显著。在今后的工作中,我们将开发更先进的联合训练框架,进一步提高3D视觉接地性能。

更多细节请参考原文!

转自:arXiv每日学术速递”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com