投稿问答最小化  关闭

万维书刊APP下载

清华大学最新 | BEVScope:自监督多目深度估计新方案!

2023/6/29 9:28:34  阅读:83 发布者:

以下文章来源于自动驾驶之心 ,作者Garfield

今天自动驾驶之心很荣幸邀请到Garfield来分享自监督多目深度估计新方案BEVScope

引言

BEV是指鸟瞰图(Bird's-Eye View),也称为俯视图,是指从上方视角观察场景的图像。在计算机视觉领域中,BEV对于处理和分析三维场景非常重要。BEV能够提供更全面的场景信息,因为它可以同时显示场景中的多个物体以及它们之间的关系。这对于许多应用场景,如自动驾驶和机器人导航等,非常重要。BEV能够消除视角变化对物体形状和大小的影响,因为它提供的是一个统一的视角。这使得处理和分析三维场景变得更加容易。BEV还可以用于将多个视角的信息融合到一起,从而提高场景的识别和定位的准确性。因此,在处理和分析三维场景时,BEV是一个非常有用的工具,可以帮助我们更好地理解和利用场景中的信息。

在机器人和自动驾驶领域,3D感知的重要性至关重要。深度信息作为2D图像输入和实际3D环境之间的关键链接,在中发挥着至关重要的作用。深度信息可以帮助机器人或自动驾驶车辆了解其周围环境的几何结构和距离关系,从而更好地规划路径、避开障碍物和进行场景理解。然而,深度传感器(如LiDAR)的利用虽然有效,但往往面临成本高昂和提供的数据相对稀疏的障碍。相反,相机虽然缺乏内在的深度信息,但是提供了一种成本效益高、可以捕捉丰富语义信息的替代方案。因此,挑战在于从这些2D图像中提取深度信息,这是深度估计方法需要有效应对的任务。

由于获取密集注释深度图的显著成本,深度估计通常采用自监督学习方法介绍了自监督单目深度估计的开创性技术,从而催生了该领域随后的一系列进展。Full Surround Monodepth (FSM)方法扩展了这种技术,首次整合了多视角。SurroundDepth通过实现运动结构(SfM)增强了信息的跨视图交互,从而促进了实际世界尺度的恢复。Multi-Camera Collaborative Depth Prediction (MCDP)通过引入深度一致性损失来进一步推动这些进展,该损失可以在重叠相机捕获的区域中精炼深度信息。主流方法涉及联合深度和姿态预测,用于将目标帧映射到源帧,从而计算光度损失作为监督信号。然而,这种监督信号可能会遇到处理动态物体的挑战。然而,它们主要集中于从相机视角估计深度,导致对几何结构的理解有限,从而影响性能。

由于Bird's-Eye-ViewBEV)特征的引入,自动驾驶任务(如目标检测和地图分割)取得了显著进展。我们主张利用BEV特征促进强大的深度估计方法。所提出的基于Bird's-Eye-ViewBEV)的深度估计策略通过明确集成关键几何结构,超越了传统的相机视角依赖方法。我们的基于BEV的方法是专门设计的,以便在各种图像视角之间促进更好的几何属性提取和集成。我们深入探讨了驱动BEV信息和图像数据交互的各种技术。

为了克服现实场景中快速移动物体的复杂性,我们还提出了自适应损失函数。在给定场景的相邻帧中存在大量快速移动的对象的情况下,这可能导致自监督光度损失在监督这些快速元素方面失效。所提出的自适应光度损失函数旨在减少监督信号中快速移动对象的权重。因此,这有助于产生更强大和精确的深度估计结果。

方法

该方法使用多个相机在时间上连续的图像   ,来估计每个相机  的深度  和自我运动 ,其中    表示每个视角的相机内参和外参。该方法通过自监督学习方式训练深度网络  和姿态网络 ,通过最小化每个像素的光度重投影误差来实现。具体地,深度估计模型  将输入图像  映射到深度图 ,而姿态估计模型  利用相邻帧之间的光度一致性,同时输入当前帧  和目标帧  来估计自我运动

Depth Estimation Decoder

网络的参数化定义了用于在多个尺度上预测深度图的任务头。给定尺度下的图像特征映射和BEV特征,深度估计任务头预测尺度下的深度图特征映射,计算公式如下:

Image-BEV特征融合组件将图像特征映射和BEV特征整合在一起。BEV特征被重塑成一系列扁平化的2D块,并且图像特征映射通过DS-Conv进行下采样,并与BEV特征连接在一起。融合后的特征然后通过Image-BEV特征融合自注意层,有效地整合了这两种类型的特征。融合后的特征被拆分成两个部分,对应于图像特征映射的原始形状和BEV特征。

Adaptive Photometric Loss Function for Fast Moving Objects

自适应光度损失函数组件通过计算相邻帧的像素级SSIM值并将其用作计算光度损失时的权重来解决快速移动物体的问题。自适应损失函数的定义如下:

其中代表原始光度损失,是相邻帧的像素级SSIM值。使用标识矩阵和SSIM矩阵之间的差异作为函数权重,以指导网络在计算深度时对具有显着帧转换的区域减少关注。

Incorporating Camera Pose Consistency

那么如何将相机姿态一致性与深度估计任务有效地结合起来,以提高系统的性能。为了解决这个问题,我们引入了一个额外的损失函数——相机姿态一致性约束损失,促进了时间上BEV特征的有效对齐。我们将预测的相机姿态转换为车体坐标系下的姿态,并对车体姿态的L1范数进行约束,以明确约束环绕视图之间的一致性。最终模型的损失函数由三个部分组成:自适应光度损失函数、车体姿态损失和深度一致性损失。该损失函数的表达式为。其中,是自适应光度损失函数,是车体姿态损失,是深度一致性损失。

其中,代表原始光度损失,是相邻帧的像素级SSIM值。使用标识矩阵和SSIM矩阵之间的差异作为函数权重,以指导网络在计算深度时对具有显着帧转换的区域减少关注。

车体姿态损失的形式为:

其中,代表第个相机的预测姿态在车体坐标系下的表示,表示向量的L1范数。该损失函数用于约束环绕视图之间的一致性。

深度一致性损失的形式可以参考文献MCDP,具体形式因模型而异。在该文献中,深度一致性损失由两个部分组成:点云一致性损失和几何一致性损失。点云一致性损失衡量深度估计的点云与激光雷达点云之间的一致性,而几何一致性损失则衡量深度估计与相机运动之间的一致性。

实验

该表格展示了使用不同的BEV特征生成技术进行深度估计的结果比较。使用的评价指标包括绝对相对误差(Abs Rel)、平方相对误差(Sq Rel)、均方根误差(RMSE)和精度a1。实验结果表明,BEVFromer方法在所有指标上都取得了最佳的成绩,其Abs Rel0.232Sq Rel2.652RMSE6.672a10.720。这说明BEVFromer方法可以更准确地进行深度估计,具有更好的性能。与其他两种方法相比,BEVFromer方法采用了Image-BEV特征融合组件和自适应光度损失函数组件,这两个组件的引入显然有助于提高深度估计的精度。因此,这些组件的使用对于BEVFromer方法的表现至关重要。

这些消融实验分别探讨了自适应光度损失函数、相机姿态一致性损失函数和BEV特征的补丁嵌入对模型性能的影响。首先,自适应光度损失函数的实验结果表明,使用自适应光度损失函数可以更好地处理快速移动的物体,因为它能够减少网络对具有显着帧转换的区域的关注。实验结果表明,使用自适应光度损失函数可以在所有指标上提高深度估计的性能,尤其是在RMSEa1方面。这表明自适应光度损失函数对于减少快速移动物体造成的深度估计误差非常有效。其次,相机姿态一致性损失函数的实验结果表明,相机姿态一致性损失函数可以有效地对齐时间上的BEV特征,从而提高深度估计的准确性。实验结果表明,使用相机姿态一致性损失函数可以在所有指标上提高深度估计的性能,尤其是在Abs RelSq Rel方面。这表明相机姿态一致性损失函数对于提高时间上BEV特征之间的对齐性非常有效。最后,BEV特征的补丁嵌入对模型性能的影响也进行了实验研究。实验结果表明,BEV特征的补丁嵌入可以有效地提高深度估计的性能。在所有指标上,使用补丁嵌入技术都能够提高模型的性能,尤其是在Abs RelSq Rel方面。这表明BEV特征的补丁嵌入可以更好地捕捉场景中的局部特征,从而提高深度估计的准确性。

讨论

本文提出的BEVScope方法具有以下优点:

利用自适应光度损失函数和相机姿态一致性损失函数等新约束条件,有效解决了多视角深度图中的姿态估计和相互一致性问题,从而提高了深度估计的准确性。

引入BEV特征的补丁嵌入技术,能够更好地捕捉场景中的局部特征,提高深度估计的准确性。

BEVScope方法能够利用多视角信息,从而提高深度估计的精度。

BEVScope方法在多摄像头深度估计数据集上取得了竞争性的性能表现。

然而,该方法也存在一些缺点:

由于使用了多个约束条件,该方法的计算复杂度可能较高。

该方法需要使用多个摄像头才能获取足够的视角信息,因此需要一定的硬件支持。

未来的研究方向可以包括以下几个方面:

进一步提高深度估计的精度和效率,以便在实际应用中得到更好的应用。

探索更加有效的约束条件,以提高多视角深度估计的准确性。

研究如何利用更少的摄像头实现多视角深度估计,以降低硬件成本。

研究如何将该方法应用于其他领域,如机器人导航、虚拟现实等。

6. 结论

本文提出了一种自监督的多摄像头深度估计方法,名为BEVScope。我们利用BEV特征在融合多视角信息方面的优势,同时引入了新的约束条件,以充分利用相机一致性和自适应损失函数来解决多视角深度图中的联合姿态估计和相互一致性的复杂性。我们的方法在多摄像头深度估计数据集,如NuScenes数据集上取得了竞争性的性能表现。

转自:arXiv每日学术速递”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com