以下文章来源于CVHub ,作者派派星
Title: MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and Camera Fusion
Paper: https://arxiv.org/pdf/2302.10511.pdf
Code: 即将开源!
导读
由于恶劣天气条件下自动驾驶需要更远的检测范围和更有用的特征,因此多视角雷达-摄像头融合技术在这种情况下变得更加重要。目前的雷达-摄像头融合方法提供了许多种不同的设计方案,用于将雷达信息和摄像头数据进行融合。然而,这些融合方法通常采用多模态特征的简单连接操作,忽略了雷达特征的语义对齐和模态之间的充分相关性。
值得注意的是,文章所描述的雷达一词是指毫米波雷达。
为此,本文提出了一种新颖的多视角雷达-摄像头融合方法MVFusion, 以实现语义对齐的雷达特征并增强模态之间的交互信息。为了实现这一目标,MVFusion采用了语义对齐雷达编码器(SARE)将语义对齐注入雷达特征中,以产生基于图像引导的雷达特征。然后,我们提出了雷达引导的融合Transformer(RGFT),通过交叉注意机制来加强我们的雷达和图像特征之间的全局相关性。广泛的实验表明,MVFusion在nuScenes数据集上取得了最先进的性能(NDS为51.7%,mAP为45.3%)。作者将在发表后公开发布代码和已经训练好的神经网络。
语义对齐
语义对齐,就是在描绘同一类别对象的两幅图像中,建立稠密的语义对应关系。上图为同属人骑摩托车的两幅图像之间的语义对齐关系图。由于类内差异很大、视角变化以及背景混乱等,语义对齐是一项十分具有挑战性的任务。
激光雷达、相机和毫米波雷达
激光雷达方法可以实现最精确的三维测量,但价格也是三种传感器中最昂贵的。相机虽然缺乏深度信息,但成本更为可承受并提供了丰富的语义信息。多视角三维物体检测集成了不同摄像头视图的信息,可以更好地理解周围环境。雷达提供了诸如速度等重要特征,但在大多数天气条件下获得的位置值有噪音,尤其是高度信息。
简而言之,本文介绍了一种新的多视角雷达-摄像头融合方法,称为MVFusion。通过将语义对齐注入雷达特征中,并再通过交叉注意机制来加强雷达和图像特征之间的相关性,NVFusion能在自动驾驶中实现更好的三维物体检测性能。
创作背景
图1. 基于纯视觉方法与本文方法的检测结果对比
近年来,深度学习在自动驾驶领域的目标检测任务中取得了显著的进展,尤其是在多传感器数据融合方面。多传感器数据融合可以提供更加稳健的环境感知,比如相机、LiDAR和毫米波雷达等传感器模态的合作,已经引起了众多研究工作者的关注。每种传感器模态都有其自身的优点和局限性,如高分辨率的相机图像能够提供类似于人类视觉感知的信息,但在恶劣天气条件下表现不佳。LiDAR数据则提供了相机感知中缺少的深度信息,但成本较高。相比之下,毫米波雷达具有成本低、稳定性好、侦测距离更远等优点。然而,毫米波雷达点数据往往较为稀疏和嘈杂,缺乏充足的垂直测量,因此研究人员通常将雷达数据与LiDAR或相机数据进行融合,其中雷达相机融合是主流策略。
然而,之前的研究大多集中在单目相机中的雷达相机融合,很少涉及多相机图像和雷达数据之间的融合。这些融合方法通常采用多模态特征之间的简单拼接操作,忽略了空间连接和语义对齐。因此,本文提出了一种新的多视角雷达相机融合方法,以实现语义对齐的雷达特征,并从全局范围增强跨模态信息交互。首先,我们提出了语义对齐雷达编码器(SARE)来提取以图像为导向的雷达特征,并采用语义指示器对齐雷达输入,选择图像引导雷达Transformer形成强大的雷达表示。在雷达特征提取后,我们提出了雷达引导融合Transformer(RGFT)来将增强的雷达特征与高级别图像特征集成在一起,利用交叉注意力Transformer从全局范围加强跨模态交互,有利于后续的3D检测。如图1所示,本文方法通过利用语义对其的雷达特征,能够检测出更多的目标。
本文的主要贡献如下:
1. 本文是首篇探索雷达相机多视角融合实现3D目标检测的工作,并提出了多视角雷达相机融合方法:MVFusion,利用视觉语义获取语义对齐的雷达特征,并采用强大的融合Transformer增强跨模态信息交互。
2. 我们提出了语义对齐的雷达编码器(SARE)来提取基于图像引导的雷达特征,采用语义指标对齐雷达输入,并选择基于图像引导的雷达Transformer来生成强大的雷达表示。此外,我们还提出了雷达引导的融合Transformer(RGFT),将增强的雷达特征与高级别的图像特征相结合,通过交叉关注机制从全局范围促进两种模态的充分相关性。
3. 实验表明,MVFusion在标准nuScenes基准数据集上实现了单帧多视角雷达-相机融合三维目标检测的最新性能(51.7% NDS和45.3% mAP)。
欢迎大家关注我们的公众号CVHub,每日都给大家带来原创、多领域、有深度的前沿AI论文解读与工业成熟解决方案!
方法
架构概述
图2. MVFusion网络架构
图2展示了我们的多视角雷达-相机融合方法的框架,主要包括五个组件:雷达预处理模块、图像编码器、语义对齐雷达编码器(SARE)、雷达引导融合Transformer(RGFT)和检测网络。
对于来自六个视角的全景图像输入,我们采用图像编码器提取多尺度图像特征,其中将每个阶段的图像特征表示为, = 1, 2, 3, 4, 5。对于来自多视角雷达的雷达点输入,我们首先采用雷达预处理模块来获取具有与图像相同形状的雷达表示。然后,我们应用我们的语义对齐雷达编码器(SARE)来产生图像引导的增强雷达特征。随后,我们利用雷达引导融合Transformer(RGFT)从全局范围内的高级特征角度进行相机-雷达融合,创建集成特征。最后,检测网络选择交叉注意力解码器和3D检测头,有效地解码对象查询并执行最终的3D预测。
雷达预处理模块的作用非常关键,因为初始雷达数据显示带有其他属性的3D点,我们需要将它们转换为适合融合相机数据的形式(在本工作中,我们将雷达点投影到图像空间中)。此外,雷达数据是稀疏且噪声较大的,因此直接使用会影响检测性能。具体来说,我们遵循两个步骤对雷达数据进行预处理。首先,为避免噪点干扰,我们使用真实边界框过滤雷达点。此外,考虑到垂直测量不准确或缺失,我们将点扩展到具有三米高度的柱体。然后,我们使用相机标定将雷达柱体投影到相应的图像视图中,在后视图数据处使用空白点,因为自车后方的雷达是空缺的。此外,我们保留另外四个重要的特征来组成五通道雷达图(),其中每个点携带五个属性:具有零或一的位置掩码(表示对应像素位置存在雷达点);距离;雷达截面积(RCS):由雷达波照射产生的回波强度的物理量;沿X和Y轴的两个径向速度。
Semantic-aligned Radar Encoder (SARE)
图3. RFE结构
通过图像编码器,我们可以获得具有低级和高级语义的多尺度图像特征。与之前的融合方法不同,我们在预处理后的五通道雷达图和输入雷达特征提取器之前,实现了语义对齐的图像特征,如图2所示。具体而言,语义对齐的雷达编码器包含三个模块:图像解码器、雷达特征提取器和图像引导的雷达transformer。
为了实现语义对齐,首先我们需要一个强大的语义指示器来对齐和过滤稀疏雷达输入。在这里,我们通过所有阶段的视觉特征生成图像指示器,通过反卷积块上采样高级特征,并通过跳跃连接补充原始低级特征,以达到更强的语义指示器(SI)。我们将图像解码器的第个输出表示为:
其中DeConv代表反卷积块。最后,我们进行1×1卷积以将通道降至1,并在预处理后将图像指示器连接到雷达输入之后。我们将图像指示器的通道设置为1,因为我们希望指示器作为图像前景掩码,并利用前景的语义和在图像空间内的相对位置来实现语义点和雷达点之间更加稳健的对齐。在高分辨率下连接后,我们成功地将雷达点与前景语义精确对齐,这些语义是根据高级视觉特征推断出来的。
在获得语义对齐的雷达输入之后,我们提出雷达特征提取器(RFE),如图3所示。在第一层卷积中,我们采用步幅为2的1×1卷积,并使用核大小为2的最大池化操作来对特征进行下采样。此外,采用三个步长为2的稀疏雷达特征提取块来提取最终的粗略雷达特征:40×100×256 。我们将粗略雷达特征表示为。
图4. IGRT结构
然而,提取雷达特征的通用卷积忽略了隐含的位置和语义关系,导致编码性能不佳。对此,我们提出了图像引导的雷达transformer(IGRT)来建模粗略雷达特征的长程依赖关系。特别地,首先我们将特征在和维度上展平成平坦的序列。然后,我们引入了多头自注意机制,同时在不同位置分配注意力,增强雷达特征,如图4所示。自注意力实现了整体和智能交互,以获得足够的相关性。此外,我们采用可学习的位置编码,有助于提高雷达特征的空间信息学习。
Q,K和V分别表示查询(Query),键(Key)和值(Value)。,和是可学习的参数。表示可学习的位置编码。表示多头自注意力机制中的头数。表示层归一化,表示多层感知机块。
Radar-guided Fusion Transformer (RGFT)
图5. RGFT结构
通过图像特征的对齐和引导,我们获得了增强和鲁棒的雷达特征。为了为检测网络提供更好的融合特征,我们提出了一种基于雷达引导的融合transformer,用于从全局范围的高级特征方面进行相机-雷达融合。早期的融合方法通常采用多模态特征之间的直接串联操作,忽略了跨模态的充分和全局空间相关性。 值得注意的是,一些基于transformer的方法通过解码器内的跨注意力机制成功地解决了跨模态问题。因此,在这里,我们引入了跨注意力机制来融合我们的雷达和图像特征,旨在从全局范围加强两种模态的相互作用,如图5所示。
与上述雷达编码器不同,我们移除了transformer中的多头注意力模块,以避免大量计算成本。此外,在将高级雷达特征发送到RGFT之前,我们利用1×1卷积(图2)来减少通道,并采用另一个1×1卷积(图5)来扩展图像的通道,以得到所需的融合特征通道:
由于相对稀疏的雷达特征容易出现梯度爆炸的收敛问题(在表V中设置(c)),因此我们采用了雷达和图像特征的连接来创建跨注意力模块的查询。另一方面,我们从图像特征中生成键和值。因此,我们提出的RGFT的跨注意力相关方程可以定义为:
其中是图像特征的可学习位置编码,表示的通道数。最终集成的特征可以写成:
有了雷达引导融合Transformer(RGFT)提供充分的跨模态相关性,我们为随后的检测过程实现了强大的综合融合特征。
检测网络
我们采用了经典的多视角解码器和3D检测头,其中物体查询(qurey)通过多头注意力和前馈网络与融合特征进行交互。最终,每个物体查询通过检测头预测一个3D位置和其类别,然后我们使用匈牙利算法对真实标记和预测之间进行标签分配。我们采用聚焦损失进行3D分类和损失进行3D回归:
实验
表1和表2列出了SOTA 3D目标检测方法在nuScenes数据集上的表现:
1. 在单帧检测中,MVFusion在NDS和mAP指标上表现最好。优于基于激光雷达的InfoFocus和PointPillars方法,雷达-摄像机融合方法CenterFusion,基于单目相机的CenterNet、FCOS3D、PGD、DD3D以及基于多视角的DETR3D、BEVDet和PETR方法。
2. 与CenterFusion方法相比,在雷达-摄像机融合方面,MVFusion在mAP和NDS指标上分别提高了12.7%和6.8%。MVFusion在nuScenes验证集上的表现也表明其优越性,相对于CenterFusion方法,NDS提高了1.8%,mAP提高了8.7%,而与基于相机的方法相比,mAP提高了3%左右,NDS提高了2%至3%。
本文通过实验验证所提出的两个模块:语义对齐雷达编码器(SARE)和雷达引导融合Transformer(RGFT),对单帧三维目标检测的性能改进。
1. 在nuScenes验证集上,SARE模块能够利用前景的语义和相对位置来实现语义对齐,而RGFT模块通过融合Transformer,加强全局范围内的交互,提高检测精度。两个模块结合使用能够获得最佳性能。
2. 此外,本文通过消融实验进一步验证了SARE和RGFT模块的重要性和效果。SARE模块的所有设置均能够实现性能增强,而RGFT模块的最佳设置是将雷达和图像特征分别作为查询和键值,并加强两种模态之间的全局交互。
图6. MVFusion与之前方法的检测结果对比
图6展示了本文方法和之前方法之间的环绕视图3D检测可视化对比。本文方法对于更远、截断和交叉视图的物体实现了正确的检测,并消除了重复的预测框。语义对齐的雷达特征提供了更多有用的线索,并补充了单模态视觉特征,以进行更强大的3D检测。
总结
本文提出了一种新的多视角雷达-摄像机融合方法MVfusion,实现了语义对齐的雷达特征和稳健的跨模态信息交互。 具体来说,我们提出了语义对齐雷达编码器(SARE)来提取图像引导的雷达特征。在雷达特征提取之后,我们提出了雷达引导的融合Transformer(RGFT),将增强的雷达特征与高级图像特征集成在一起。在nuScenes数据集上的广泛实验验证了我们的模型在单帧雷达-摄像机融合的性能达到了最先进水平。 未来,我们将集成来自多视角摄像机的时空信息,以进一步推进雷达-摄像机融合技术。
转自:“arXiv每日学术速递”微信公众号
如有侵权,请联系本站删除!