0. 论文信息
标题:GaussianAD: Gaussian-Centric End-to-End Autonomous Driving
作者:Wenzhao Zheng, Junjie Wu, Yao Zheng, Sicheng Zuo, Zixun Xie, Longchao Yang, Yong Pan, Zhihui Hao, Peng Jia, Xianpeng Lang, Shanghang Zhang
机构:Tsinghua University、Li Auto、Peking University
原文链接:https://arxiv.org/abs/2412.10371
代码链接:https://github.com/wzzheng/GaussianAD
1. 导读
基于视觉的自动驾驶因其令人满意的性能和低廉的成本显示出巨大的潜力。大多数现有方法采用密集表示(例如,鸟瞰图)或稀疏表示(例如,实例盒)进行决策,这在全面性和效率之间存在折衷。本文探索了一种以高斯为中心的端到端自动驾驶(GaussianAD)框架,并利用3D语义高斯广泛而稀疏地描述场景。我们用统一的3D高斯图初始化场景,并使用环绕视图图像来逐步细化它们,以获得3D高斯场景表示。然后,我们使用稀疏卷积来有效地执行3D感知(例如,3D检测、语义地图构建)。我们用动态语义为高斯人预测3D流,并以未来场景预测为目标相应地规划自我轨迹。我们的GaussianAD可以使用可选的感知标签以端到端的方式进行培训。在广泛使用的nuScenes数据集上的大量实验验证了我们的端到端GaussianAD在各种任务上的有效性,包括运动规划、3D占用预测和4D占用预测。
2. 引言
基于视觉的自动驾驶因其与人类驾驶的相似性和经济高效的传感器配置,成为了一个颇具前景的研究方向。尽管缺乏深度输入,基于视觉的方法利用深度网络从RGB摄像头中推断结构信息,并在各种任务中展现出强大的性能,如三维目标检测、高清地图构建和三维占用预测。
近期的自动驾驶研究正在从模块化向端到端范式转变,该范式旨在直接从图像输入中规划未来轨迹。端到端流程的关键优势在于,从输入到输出的信息损失较少,因此设计二维图像的中间三维场景表示变得尤为重要。传统方法通过压缩三维场景的高度维度来获得鸟瞰图(BEV)表示。而近期方法则探索使用稀疏查询(如实例框、地图元素)来描述周围场景。尽管这些方法效率高,但它们无法捕捉三维环境的精细结构,从而为决策过程提供较少的信息。此外,一些方法采用三透视视图或体素来表示场景的三维占用情况,以捕捉更全面的细节。然而,这种密集建模导致计算开销大,从而减少了用于决策推理的资源。这引发了一个自然的问题:我们能否设计一个既全面又稀疏的中间表示,以便信息在端到端模型中传递?
本文提出了一个以高斯为中心的自动驾驶(GaussianAD)框架作为对上述问题的肯定回答。我们使用从二维图像中获得的稀疏三维语义高斯分布作为场景表示。尽管这种表示是稀疏的,但它得益于高斯混合的通用逼近和明确的三维结构所带来的精细建模,这有助于各种下游任务。我们进一步从三维高斯表示中探索感知、预测和规划。在感知方面,我们将三维高斯分布视为语义点云,并使用稀疏卷积和稀疏预测头来高效地处理三维场景。我们提出了三维高斯流,以全面且明确地建模场景演变,其中我们为每个高斯分布预测一个未来位移。然后,我们整合所有可用信息来相应地规划自车轨迹。由于三维高斯表示的明确性,我们可以直接使用仿射变换来计算自车观察到的预测未来场景。我们将预测场景与真实场景观测进行比较,作为预测和规划的明确监督。据我们所知,我们的GaussianAD是首个探索明确稀疏点基架构用于以视觉为中心的端到端自动驾驶的方法。我们在nuScenes数据集上进行了大量实验,以评估所提出的高斯中心框架的有效性。实验结果表明,我们的GaussianAD在高效端到端运动规划方面取得了最优结果。
3. 效果展示
自动驾驶的不同管道比较。传统的端到端自动驾驶方法通常使用精细的场景描述(如三维框、地图)作为预测和规划的接口,这可能会遗漏某些关键信息。不同的是,所提出的GaussianAD采用稀疏但全面的三维高斯分布来传递管道中的信息,以高效地保留更多细节。我们可以选择性地施加密集或稀疏监督来指导场景表示的学习。我们的管道可以适应具有不同可用注释的各种数据。
4. 方法
我们首先用一组均匀分布的三维高斯分布G0初始化场景,然后通过结合来自环视图像的信息逐步细化它们,以获得高斯场景表示r。如果相应的注释可用,我们还可以选择性地从r中提取各种场景描述d作为辅助任务。具体来说,我们使用高斯到体素的映射[23]来获得密集体素特征,用于密集描述(如三维占用预测),并使用完全稀疏卷积[7]来获得稀疏查询,用于稀疏描述(如三维边界框、地图元素)。使用辅助感知监督为场景表示r引入了额外的约束和先验知识,以指导其学习过程。然而,我们直接在三维高斯分布r上预测未来演变,以减少信息损失,并相应地规划自车轨迹{w}。GaussianAD通过稀疏但全面的三维高斯表示在整个模型中传递信息,为决策过程提供更多知识。
5. 实验结果
端到端规划结果。我们在表1中提供了与最先进的端到端自动驾驶模型的比较结果。加粗数字和带下划线的数字分别表示最佳和次佳结果。我们还报告了在VAD中使用的指标,该指标计算每个时间戳下所有先前帧的平均结果。推荐课程:为何BEV和Occupancy撑起了自动驾驶的半边天?
请注意,不同的方法使用不同的输入模态和辅助监督信号,这些可能会影响性能。一般来说,激光雷达提供了额外的深度信息,这对于规划至关重要,特别是在测量碰撞率时。然而,虽然激光雷达点云很准确,但通常很稀疏且缺乏更精细的信息,从而导致性能较差。对于辅助监督,运动通常被认为是最有效的标签,因为它们为安全关键的未来预测提供了真实值。然而,对运动进行标注的成本相对较高,而3D占用标签则可以使用多帧激光雷达和3D边界框[56]自动标注。尽管我们的GaussianAD能够容纳不同的监督信号,但我们还是用3D占用作为最实用的设置来替代运动。
表1显示,我们的方法在L2指标上取得了最佳性能,在碰撞率指标上取得了具有竞争力的结果。特别是,在使用相同的监督信号(即3D占用、地图和3D边界框)时,GaussianAD显著优于OccNet[50]。尽管缺少运动标签,我们的GaussianAD通过预测高斯流来模拟未来场景,从而能够利用感知标签来完成运动任务。这迫使模型更多地考虑未来的交互,从而在碰撞率指标上相对于OccNet取得了大幅改进。
3D占用预测。尽管它们不是本文的重点,但我们还提供了其他感知任务的结果。我们采用平均精度均值(mAP)来评估3D目标检测任务。我们使用平均交并比(mIoU)和交并比(IoU)来评估3D占用预测,以分别衡量语义和结构重建的质量。
表2将我们的GaussianAD与最先进的端到端方法和3D占用预测方法进行了比较。GaussianAD在3D占用预测任务上表现良好,但在3D目标检测上逊于现有的端到端方法。这是因为不同的感知任务侧重于场景描述的不同方面,并且可能会相互干扰。这解释了我们的方法在碰撞指标上性能不佳的原因,该指标需要准确感知其他代理以避免碰撞。
4D占用预测。通过为每个高斯预测一个3D流,并使用规划的轨迹进行仿射变换,GaussianAD能够预测未来场景并对其进行感知。我们评估了GaussianAD在4D占用预测任务上的预测能力,并测量了未来1秒、2秒和3秒时的3D占用质量(mIoU和IoU)。
表3显示,我们的GaussianAD能够有效地预测未来的3D占用。请注意,我们的GaussianAD是一个端到端模型,能够同时执行多个任务,而OccWorld则专门针对此任务。此外,我们的预测没有考虑新观测区域的补全(由于本车向前移动),导致性能较差。尽管如此,GaussianAD仍然展示了非平凡的4D预测结果,验证了所提出的高斯流的有效性。
不同监督信号的影响。由于我们的模型能够适应不同任务的不同训练信号,我们进行了一项消融研究来分析使用不同辅助监督的影响,如表4所示。
6. 总结
我们研究了结合3D占用、3D检测、地图构建、运动预测和场景预测监督的规划性能。我们发现,我们的GaussianAD在不同监督组合下表现出一致的性能,并且使用更多的监督信号通常会提高性能。运动监督的使用对于碰撞率指标特别有效,因为它为潜在的未来轨迹重叠提供了指导。然而,使用所提出的基于流的场景预测监督也实现了类似的改进,它只需要未来的感知标签,并且不需要额外的标注。
我们提出了一个以高斯为中心的框架,用于基于视觉的端到端自动驾驶。为了保留更全面的信息,我们采用3D高斯作为场景表示,并采用高斯流来有效预测未来的演变。我们的框架具有灵活性,能够容纳具有各种标注的不同训练数据。我们在广泛使用的nuScenes数据集上进行了大量实验,并在包括端到端规划和4D占用预测在内的各种任务上展示了具有竞争力的性能。探索基于3D高斯场景表示、使用更多样化数据进行训练的大规模端到端模型将是一个有趣的研究方向。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~