生成式AI 进入自动驾驶系统的速度越来越快了。7 月初的智驾系统发布会上,理想汽车推出了全链路一体式端到端+ 视觉语言模型的双系统方案。7 月23 日的科技创新日上,蔚来汽车推出世界模型NWM,虽然尚未量产,但也宣誓了蔚来汽车要将生成式AI 搬上车端自动驾驶系统的决心。7 月30 日的智驾系统发布会上,小鹏汽车宣布全量推送搭载大语言模型技术的XBrain 与XPlanner、XNet 三网合一的端到端。到了10 月下旬,理想汽车全量推送了接棒分段式端到端无图NOA 方案的双系统方案。至此,头部智驾车企以生成式AI 大模型解决传统端到端方案缺陷的技术路线已经相当明朗了,不过,这并非生成式AI大模型与自动驾驶领域的初次相遇,更早之前,世界模型和大语言模型就已经用在了自动驾驶系统的数据闭环里。
本文引用地址:https://www.eepw.com.cn/article/202412/465475.htm在这样的语境和事实下,两个值得探讨的问题是:大模型为什么能够用于,大模型又是怎样助力数据闭环的呢?
图片来源:地平线
1 数据闭环与大模型的适配
时代的变迁从来都不是忽如一夜春风来,千树万树梨花开,是一天又一天润物细无声的悄然改变,让你在多日之后回头一看方惊觉已经变了天。自动驾驶技术路线的变迁也像郭德纲成名那样,并非发生在具体的哪一天,而是发生在每一个夜晚。随着自动驾驶系统中感知定位、决策规划和控制模块的实现方式由基于规则的代码向AI 模型慢慢转变,自动驾驶系统开发范式也从规则驱动逐渐过渡到了数据驱动,自动驾驶系统越来越依赖数据驱动,意味着数据闭环对自动驾驶系统越来越关键了。
所谓数据闭环,指的是从数据采集到存储,到挖掘、标注、模型训练,再到仿真验证、集成部署的整个开发工作流。数据闭环完成的是对数据价值的提取工作,其本质是将隐藏在一个又一个驾驶数据片段中的人类驾驶知识慢慢地乾坤大挪移到自动驾驶系统模型的参数文件里。
图片来源:辉羲智能
在海量数据驱动的端到端大模型时代。如何高效地采集、处理数据,如何高效地训练模型并验证模型能力成了决定系统迭代速度的关键。显然,决定数据采集和驶知识慢慢地乾坤大挪移到自动驾驶系统模型的参数文件里。
在海量数据驱动的端到端大模型时代。如何高效地采集、处理数据,如何高效地训练模型并验证模型能力成了决定系统迭代速度的关键。显然,决定数据采集和价值提取效率的数据闭环,决定着自动驾驶系统能力升级的效率。提到效率,AI大模型的价值之一就是变革工作流,提升各个环节的效率,所以,AI大模型顺理成章地被各路玩家应用到了自动驾驶的数据闭环里。
图片来源:华为
在《技术的本质》一书里,作者鲜明地指出,技术方案的一端连着用户需求,另一端连着技术的能力。将这种认知方法论套用过来,对于而言,链条的一端是目的或需求,数据闭环的需求在于数据标注和挖掘、模型训练和仿真,链接的另一端是能够达到目的或满足需求的技术能力,大模型的技术能力在于带来了两个关键能力的根本性提升:超强的理解能力和超强的生成能力。
所以,就大模型的技术能力和需求的匹配而言,大模型超强的理解能力可以满足数据标注、场景挖掘的需求,其超强的生成能力可以满足用于模型训练与仿真的场景重建和生成。那么,展开来讲,大模型是如何加持自动驾驶数据闭环的数据标注、场景挖掘、场景重建和生成的呢?
2 大模型赋能数据标注和场景挖掘
数据标注的主要作用在于从原始图像、雷达数据中生成精标数据,通过精确标注的数据构建模型的训练集、验证集和测试集,用于自动驾驶模型的训练和评估。具体而言,在自动驾驶模型的训练中,通过精标训练数据集提供的真值和模型输出做对比,计算损失函数,再以反向传播的方式更新模型的参数,使得模型输出可以愈来愈逼近训练数据的真值。在自动驾驶模型的性能评估和验证中,通过标注数据构建验证集和测试集,将模型预测结果与标注的真实结果作比较,评估模型的性能。
图片来源:高通
场景挖掘的主要作用是搜索或检索带有相似语义标签的场景数据,在模型训练阶段,通过特定场景库的训练让自动驾驶模型学习该类场景的特征,提升在该类场景下的感知、决策准确性和泛化能力。在模型验证和评估阶段,通过场景挖掘构建测试场景库,验证模型是否可以有效应对此类场景。如果拿日常生活片段做类比,数据标注是将所有衣物都进行清洗,场景挖掘则是建立一个又一个带标签的小抽屉,把这些衣物分门别类地放在了小抽屉里。
图片来源:特斯拉
早在几年前,头部玩家们就已经借助AI 能力实现了自动标注,相较于传统的人工标注,自动标注的效率提高了几个数量级。
大模型问世之后,通过海量数据的预训练和精标数据的精调训练,具有图文理解能力的大模型可以进一步提高标注的速度和准确性。更为难得的是,为了挑战OpenAI,部分大模型头部玩家采用了开源的战略,使得自动驾驶行业的从业者们可以奉行拿来主义,近乎于直接采用具备精确标注能力的开源大模型进行数据标注。
图片来源:一汽红旗
大模型对场景挖掘的加持主要得益于图文大模型的场景理解能力。借助之前那个小抽屉的比喻,场景挖掘的核心工作是给视频片段打标签、做分类,大模型具备超强的语义理解能力,可以代替人工打标签,以极高的效率完成对海量视频片段的处理。
图片来源:百度
3 大模型赋能场景重建和生成
自动驾驶系统能力提升的过程是覆盖一个又一个长尾场景的过程。长尾场景遵循动态的定义,因人而异,因时而异,对比亚迪智驾系统成立的长尾场景对华为ADS和小鹏XNGP不一定成立,对半年前的智驾系统成立的长尾场景对今天的智驾系统也未必成立。简而言之,系统处理不了的都是长尾场景,处理得了,无论场景有多么复杂,也不再称其为长尾场景。
虽然现实世界千奇百怪,但是,大部分人过的都是一个又一个平平淡淡的日子,换言之,通过真实车辆收集驾驶长尾场景的速度实在太慢了。根据头部智驾方案供应商Momenta的估计,自动驾驶系统要达到L4 等级,需要1,000 亿公里的累计驾驶里程才能收集完罕见长尾问题。目前,国内累计智驾里程最多的理想汽车累计里程也不过才25亿公里,和1000亿公里还有着远超十万八千里的差距。
既然通过真实车辆收集长尾场景的时间太漫长,那么,秉持“有困难要上,没有困难创造困难也要上”的态度,可以以虚拟仿真和数字孪生的方式制造长尾场景,利用大模型的生成能力将Corner case 变成小case。具体的,首先通过3D 高斯溅射或Nerf 神经辐射场重建驾驶场景,然后利用大模型的生成能力对重建的驾驶场景做泛化,做数据增强,生成各种天气、光照、交通参与者下的长尾场景。
图片来源:地平线
写在最后
过去领跑自动驾驶赛道的玩家更早地布局自动驾驶数据闭环的建设,再加上代表自动驾驶最新技术路线的端到端更加依赖数据驱动,所以,虽然大模型对各家自动驾驶数据闭环的各个阶段都能有所助益,但是,从大模型这个大家伙那里获得最大收益的,依然是头部玩家华为、特斯拉、蔚小理!
图片来源:Momenta