投稿问答最小化  关闭

万维书刊APP下载

中科院&清华联合新作 | ADAPT: 让自动驾驶系统“开口说话”!

2023/2/8 17:27:01  阅读:131 发布者:

以下文章来源于CVHub ,作者派派星

Paper: https://arxiv.org/pdf/2302.00673.pdf

Code:  https://github.com/jxbbb/ADAPT

导读

随着人工智能在近十年的迅猛发展,许多工业界和科研界的研究者投入到自动驾驶领域并激起了猛烈的AI浪潮。自动驾驶系统的终极目标是能够对周围环境进行精确感知,做出安全且敏捷的决策。在无需人工干涉的情况下采取可靠的行动,为乘客提供安全舒适的乘坐体验。

一直依以来,自动驾驶系统的难点之一是:智能决策策略过于复杂、可解释性弱,导致普通乘客难以理解。 对他们来说,车辆实行的安全性和可控性是至关重要的。

为了解决此问题,有很多工作先后提出了自己的解决方案。包括:(1)通过可视化穿越地图不同区域的难度来解释自动驾驶系统的行动;(2)利用视觉注意力来过滤非倾斜的图像区域;(3)通过构建BEV来可视化车辆的运动信息。然而,以上对自动驾驶系统的行动解释方式还是不够直观,很容易让新手用户产生误解。

一个理想的解决方案应该是在自动驾驶控制模块的决策和行动过程中加入自然语言叙述来指导使用,这可以给到用户最直观的解释。此外,对每个控制或行动决策的额外解释能够帮助用户时刻了解车辆自身状态和周围环境,这是自动驾驶系统所采取行动的重要依据。

为此,本文提出了ADAPT,这是首个基于动作感知Transformer的驾驶动作字幕架构,为乘客提供方便的自然语言叙述和自动驾驶系统的推理。

本文提出的ADAPT方法贡献总结如下:

ADAPT:一个新的基于Transformer的用于自动驾驶系统的行动叙述和推理框架;

多任务联合训练框架:将驾驶行动解释任务和控制信号预测任务统一起来;

可部署pipeline:可在模拟器环境或真实世界中应用ADAPT

欢迎关注我们的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿AI论文解读与工业成熟解决方案!

方法

ADAPT框架的概述

ADAPT框架如上图所示,它集成了驾驶说明生成(DCG)和控制信号预测(CSP)两个任务。

具体来说,DCG是将一连串视频帧作为输入,并输出两个自然语言句子:一个描述车辆的动作(例如:“汽车正在加速”),另一个解释采取这一行动的理由(例如,“因为交通灯信号变成绿色”)。CSP将相同的视频帧作为输入,并输出一系列的控制信号(如速度、路线等)。

视频编辑器

我们采用Video Swin Transformer 作为视觉编码器,将视频帧编码为视频特征标记(token)。基于从第一视角拍摄的汽车视频,我们首先进行均匀采样,得到特征尺寸为的帧。然后,将这些帧作为输入传给Video Swin,从而得到特征大小为的,其中为通道数。最后,视频特征被输入至不同的预测头,用于进行不同的两个任务。

预测头

文本生成头

文本生成头的目的是生成两个句子,分别为描述车辆行动和产生此行动的原因。

如上节提要,视频帧被编码为视频特征FV。对于文本输入(动作叙述和推理),我们首先将每个句子进行标记化并填充至一个固定长度。然后,将两个句子concate起来,输入至embedding层。此外,我们利用片段嵌入(segment embedding)的方法来区分动作叙述和推理之间的差异。并且,我们还使用了一个可学习的MLP来转换视频标记的维度,使得视频标记和文本标价之间的维度保持一致。最后,文本标记和视频标记被送入视觉-语言转换编码器,它将生成一个新的序列包括动作叙述和推理。

控制信号预测头

信号控制预测头的目的是预测车辆的控制信号。给出T帧的视频特征以及对应的控制信号记录,CSP头的输出是一串控制信号。

我们首先对视频特征进行标记,然后利用另一个TransformerMotion Transformer)来产生这些控制信号的预测。损失函数LCSP被定义为SSˆ的平均平方误差:

值得注意的是,因为第一帧的动态信息有限,我们不预测第一帧的控制信号。

联合训练

在此框架中,我们假设CSPDCG任务在视频表述的语义层面上是一致的。简单来说即是,行动叙述和控制信号数据都是自动驾驶汽车行动的不同表述形式,而推理解释则集中在影响车辆行动的环境因素上。因此,我们从经验主义上认为,在一个网络中联合训练这两个任务可以利用它们各自不同的归纳偏见来提高性能。

在训练过程中,由于CSPDCG是同步进行梯度更新的,我们只需将LcspLdcg相加便能得到最终的损失函数:

尽管两个任务是联合训练的,但它们都是可以分别单独推理。

实验

定性对比分析

模型生成的叙述能正确描述当前的行动,并给出合理的解释。

对比不同的SOTA模型,ADAPT在各项指标上都由不同程度的提升,尤其是在C指标上提升显著。

对比不同的SOTA模型,ADAPT的叙述能力稍弱于WAA,但推理能力比其他两模型由大幅度的提升。

可以清晰看出,通过应用两种注意力以及联合训练策略,ADAPT能达到最优性能。这证明了各组件和训练策略的有效性。

总结

基于语言的可解释性能显著增加社会对自动驾驶汽车的接受程度。本文提出了AdaptAction-aware Driving Caption Transformer),这是首个用于为自动驾驶车辆生成动作叙述和推理的transformer框架。ADAPT利用多任务联合训练来减少驾驶动作说明任务和控制信号预测任务之间的差异。在BDD-X数据集上进行的关于标准字幕指标的实验以及人类评估表明,ADAPT比最先进的方法更有效。此外,我们进一步为ADAPT在模拟器环境和现实世界中的应用开发了一个可部署的 Pipeline

转自:arXiv每日学术速递”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com