端到端究竟该怎么做,至今业内没有答案
文 | 包校千
短短一年时间内,智能驾驶的主旋律从高速公路挺进城区道路,而近来车企高频宣传的“端到端”,又让参赛选手卷入到新的赛道之中。
“端到端”之所以备受推崇,则要归功于特斯拉的FSD V12(特斯拉研发的自动驾驶系统)。其智驾的系统能力在短短数月间超越了过去数年的积累。凭借这一质的飞跃,“端到端”也被认为是迈向完全自动驾驶的分水岭。
实际上,端到端的第一端是感知端,如车辆的摄像头、激光雷达输入环境信息部分;第二端则是控制端,当车辆收集到环境信息后,要做出决策并对车辆行驶轨迹进行控制,让车辆根据环境进行加减速或避让等。因此,环境感知、决策规划、控制执行,三个模块形成了自动驾驶的底层操作逻辑。
但三者相对独立,只能依靠固定的语言和格式传达信息,在处理上有些死板,特别是在决策层方面,其各种决策依靠的是工程师提前设想和写下来的规则,如果出现没有提前写下来的规则,决策层可能就会出现决策错误。另外,信息在三个模块之间传输始终是有延迟的,并且有可能在信息传输的过程中导致数据缺失,从而带来一些安全隐患。
如今众玩家比拼的端到端,则是通过大模型将感知、规划和控制三个模块集成起来,消除三者之间的界限,让它们成为一体。
在将三者整合之后,工程师不再需要写规则告诉系统什么是车道线、红绿灯、交通规则等,直接抛弃规则,并运用大模型技术在大量的驾驶数据中学习人怎么开车,寻找驾驶的规律。相比之前工程师写下的规则,大模型学习之后能够迅速找到更加符合场景的应对策略,让车辆更似真人驾驶。
然而,当中国各路选手翻开特斯拉给出的端到端习题时,却没有任何参考答案和提示。对于智驾技术架构的摸索,大多数团队都是从2023年才刚刚开始的。
在众多参赛玩家中,理想是少数的激进派。其采用“4D One Model”的一体化决策网络,即把感知决策合二为一的“一段式端到端”技术方案。该方案可以实现从数据输入到路径输出只经过一个模型。而华为、小鹏等企业所采用的则是“分段式端到端”的渐进发展路线。
为了在智能驾驶领域拔得头筹,从9月10日起,理想的部分车型正式升级为新一代智能驾驶技术方案,即“端到端+VLM(视觉语言模型)”。
“从端到端开始,大家真正用人工智能的方式去做自动驾驶了,我相信或早或晚,头部玩家一定都会做这个方向的。”理想汽车智能驾驶研发副总裁郎咸朋向我们表示。
01 从“城市NOA”
转向“端到端+VLM”
和华为、小鹏等智驾头部玩家相比,理想一直处于追赶状态。理想汽车董事长兼CEO李想曾放出豪言,其自研智驾系统在2022年完全可以和华为、特斯拉正面较量,但其智能驾驶无论是在规划能力还是横向控制方面,一直定位在L2级别,远未达到L2++水平。
为了补足智驾短板,理想从2023年开始集中发力。从去年年初公司决定力推城市NOA年内落地。
尽管身为新势力销冠,但当华为在2023年9月宣布年底推出全国都能开的无图方案后,一直徘徊在月销数千辆的问界在短短一个月后便销量破万,年底更是冲上月销 3 万辆大关。这让理想高层再次把智能驾驶的战略提升了一个层级。在2023年三季度财报电话会上,公司高层表态称,有信心在2024年上半年成进入“经过市场验证的第一梯队”。
不过,在奋起直追的过程中,理想一直在变换智驾路线。
在2023年4月的上海车展上,理想提出了“年内百城通勤NOA”的目标。此后不久,不只是理想,一众车企不但直接宣布做到了量产,还比上了开城速度,宣称年底就能在几十城、上百城,甚至全国使用。但是在去年的成都车展上,理想言之凿凿的城市NOA(针对城市交通环境开发的驾驶辅助系统)却变成了以通勤NOA(可以让用户设定自己的通勤路线,并通过日常通勤时的自动化训练积累特征)来实现。
图源 IC
和通勤NOA这种在限定路线范围内的智驾方案相比,城市NOA要面对更复杂的路段、更多不确定的因素。在此之前,全行业的城市NOA基本都停留在demo(样本)阶段,很多车企连ODD区域(全称OperationalDesignDomain,即运行设计域,是指针对自动驾驶及相关功能专门设计的运行条件,包括但不限于道路类型、行驶区域、速度、环境等)都没跑明白。“如果只是在全国道路上吭吭咔咔地开起来,没什么难度,ACC(自适应巡航控制系统) 可以,LCC(车道居中辅助系统) 也可以,但如果想让城市NOA在全国道路上开得好,那很难。”小鹏汽车创始人何小鹏曾评价道。
从2023年开始,国内智驾头部车企的竞争转向传统的模块化技术架构下,以人海战术比拼开城速度。在此过程中,新造车企业的智驾团队无一例外地扩充到千人规模,星夜兼程地训练、测试、验证,并攻克极端情况。
城市NOA之所以能成为行业爆点,并演变为一场激烈的开城大战,很大程度上是因为智驾已成为消费者购买决策的主要因素之一。市场研究机构J.D.Power君迪发布的《2023中国新车购买意向研究》显示,智能化体验在购车决策中的影响权重上升到14%,成为继汽车质量和性能之后的第三大决策因素。
当然,理想狂补智驾作业不仅是为了刺激销量,还与李想本人对人工智能的执念有关。
在2023年初的内部信中,李想提到公司的愿景是“到2030年成为全球领先的人工智能企业”。久未露面的李想,在出席今年6月举办的中国汽车重庆论坛时,也分享了对于自动驾驶技术路线的新思考。
他认为,如果自动驾驶团队每天干的活都是靠人工去调试各种各样的cornercase(极端情况),那么人越多,cornercase就越多,离真正的自动驾驶就越遥远。而端到端+VLM+生成式的验证系统,会是未来整个物理世界机器人最重要的技术架构和技术体系。
在7月召开的智能驾驶夏季发布会上,理想首次公开展示了这一全新的自动驾驶架构。该架构主要由端到端模型、VLM视觉语言模型、世界模型三部分共同构成。为此,理想卧薪尝胆了一年,一边继续用NPN减少对高精地图的依赖,兑现去年“百城 NOA”的承诺;一边研发“无图 NOA”,同步进行端到端的预研。
今年7月,理想汽车向1000名内测车主推送了基于端到端模型+VLM的智驾版本。该版本可以达到L2+++的智驾水平,甚至足以支持L3级(有需要时驾驶员要接管)、L4(无需接管的自动驾驶)级自动驾驶产品。
在不到1个月的时间里,千人内测的城市NOA总行驶里程达到21.1万公里,单日城市NOA驾驶最长里程为391公里,单次城市NOA零接管最长里程81.6公里。在此过程中,系统对于司机驾驶数据的学习,让对于环岛、超车的处理能力得到明显提升。在8月成都车展上,理想又同步开启了万人内测,显然是期冀于全新自动驾驶技术架构成为弯道超车的利器。
回溯理想汽车的智驾技术路线,从高精地图方案到NPN(神经先验网络),再到无高精地图方案,再到如今的“端到端+VLM”,短短3年内,智驾团队尝试了多种方案。然而在技术架构快速更迭的过程中,智驾体验虽然更好了,但系统到底运用了司机掌握的哪些技巧和规则,端到端的不可解释属性,让工程师和使用者还无从得知。
在 L4级自动驾驶(高度自动驾驶) 真正实现之前,坐在驾驶位置的还是人,因此安全、可靠、稳定,才是用户对当前智能驾驶的检验标准。如何印证技术的安全性与先进性,是所有玩家无法回避的核心问题。
02 激进派PK保守派
智驾时代上半场,系统能力的上限取决于产品的设计能力,例如下匝道、超车变道、走ETC等能力,这需要逐一进行拆解和细化。进入到智驾时代下半场,端到端的应用能让系统能力的上限更高,在一些关键场景的表现更加拟人,更加灵活自如,摒弃了传统智能驾驶系统的生硬的“规则感”。
郎咸朋称,他们在训练了80万条数据量时,系统还不能通过环岛,但是在训练了100万条后,惊喜地发现系统可以做到了。
理想汽车智能驾驶研发副总裁郎咸朋
理想方面认为,端到端是真正用人工智能的方式去做自动驾驶了。只要用更多数据训练模型,系统就会不断变强,表现可能超过人类司机。
虽然端到端进化速度很快,但毕竟属于“黑盒”模式,对于其能力的评价和测试是不确定性的,很难测试和验证。当大模型遇到很多没学明白的地方时,就容易出现下限问题。比如特斯拉车主就遭遇过危险时刻,当十字路口的直行道排队较长,特斯拉的autopilot(自动驾驶)直接拐到左转道,然后红绿灯一亮,直接又加速斜插回直行道。差点和直行车撞上。所幸,驾驶员一脚踩住了刹车。
因此,类似场景既需要算法覆盖,用有优质的数据强化训练,让系统学会安全的驾驶习惯,同时还要有兜底的手段,比如驾驶者打算进行180°的急转向,理想智驾的控制模块就会对其进行约束。
为了让智驾的安全性得到保证,理想设置了安全兜底模块,确保系统有绝对的下限。今年7月,理想汽车正式推送全自动紧急转向AES(自动紧急转向)。AES在自动紧急制动系统AEB(自动紧急刹车)的基础上,将一维的纵向制动,升级到了二维的制动及转向,规划多条躲避路径并选择其中最优的进行避撞。“用算法、冗余一起来解决安全问题,是在最极端的情况下,最兜底的一种保证绝对安全的方式。”郎咸朋表示。
据了解,小鹏、极越等保守派玩家采用的是两段式端到端,即感知和规控分为两个模型来做。以小鹏汽车为例,其技术方案是感知神经网络XNet+规划神经网络XPlanner+侧重场景理解的视觉语言模型XBrain。
对此,激进派认为分段式端到端仍然没有摆脱传统方案的范畴,尽管感知与规划都实现了神经网络化,但一个关键点没有改变,即连接两个神经网络的依然是人类定义的接口,这意味着信息损失,以及大量人工标注,整个流程不利于全局最优,也不利于自动化。
不过,分段式端到端的优点也同样在此,有人类定义的接口,意味着会输出人类能看懂的中间结果,便于检查、定位问题,不至于牵一发而动全身。比如,感知出问题了不用把整张网络都重新训练一遍。更重要的是,分段式端到端更容易保住智驾表现的下限。
理想选择的一段式端到端,则是用传感器输入,模型推理完毕后直接给到轨迹规划用来控车的一体化端到端模式。
其对于坚持采用一段式端到端的解释是,这种方式能够解决中间信息的损失。倘若中间增加了人为的信息消化过程,分段式端到端的效率可能会所有降低,能力上限也会受到约束。
对于能力下限的解决方案,理想设计了一套多系统结构,即以端到端为基础,整合具备兜底和泛化能力的VLM视觉语言大模型和用于验证和强化学习的世界模型。
2024款理想L9
VLM视觉语言大模型擅长的是逻辑推理,能够去执行复杂的分析,在驾驶中给“端到端”系统提供更加符合逻辑、准确的驾驶决策。比如当车辆行驶到一个复杂的路段,同时又遇到一个水坑,这时候其会调用大脑系统2工作,处理复杂逻辑并推演,两个系统实时运行,相互配合协同,目的是让车辆更拟真人驾驶。
世界模型是智驾行业找到的最新方法论。它通过学习海量真实驾驶场景视频,可以预测并生成未来一定时间内的驾驶场景视频,做出正确的驾驶决策,本质上就是时空推演。在2023年人工智能顶级会议CVPR上,特斯拉展示了世界模型的研发成果。
使用世界模型比目前的端到端更进一步的是,它的核心任务不仅仅是给出规划路径,更有“预测驾驶场景的像素变化”。这个难度极高的任务,会逼迫模型不仅仅学习优秀驾驶员的行为,还必须广泛地学习交通知识与物理常识。
理想的世界模型是通过扩散模型技术和3DGS技术(即三维高斯溅射技术,是一种先进的三维建模和可视化技术),把曾经遇到过错题以及遇到过的场景,举一反三地形成模拟题,实现不断地测试模型能力,不断地优化各个城市表现。它相当于是一套题库,来源有两种:
一种是根据真实车主的数据,产品和整车的主观评价团队,与内部司机共同制定“老司机标准”,然后给理想车主的驾驶行为进行打分。如果在安全、法律法规等维度存在不安全、不合规的情况,模型就不能交付给用户。
另一种方式类似“错题库”,在正常的测试和开车过程中,用户的接管和退出就是“错题库”。
真题库和错题库都有了,理想还会再生成一些模拟题,根据现有的数据举一反三,比方说有个匝道总是出问题,那么匝道的场景,理想都会进行训练,再生成一些匝道的内容,这就是模拟题。
03 标配和免费,
理想能否坚持到底?
2024年1月,特斯拉开始大规模推送的FSD V12,带火了“端到端”,也让智能驾驶迎来了ChatGPT时刻。一时间,仿佛L4级别的智能驾驶呼之欲出。
图源 IC
相比于特斯拉,以理想、蔚来、商汤、元戎为代表的科技公司,其技术路线向端到端转移大多是从2023年底才开始。这意味着无论是模型的建立还是数据训练,中国车企与特斯拉之间始终存在着一定差距。
去年,理想对于智驾技术的判断是,只落后特斯拉半年。今年,这个差距可能还会再小一点。在郎咸朋看来,理想的技术架构和特斯拉相比代差不大,甚至更有优势,“因为我们有VLM,有系统2,特斯拉只是有系统1,端到端。”
郎咸朋表示,理想提出端到端+VLM的系统架构后,行业内很多企业也开始提及双系统理论的好处,无论是对于理想汽车来说,还是对于特斯拉来说,其实都是在向双系统方向发展。
从训练算力和训练数据方面来看,中国企业的相关布局也更胜一筹。“特斯拉应用数据的合规性会受到一些约束,训练算力的部署搭建也还需要时间。”郎咸朋认为,从这个层面上看,国内车企跟特斯拉的整体差距不会越拉越大。
目前,理想有80万车主、超过12亿公里的数据,五千张A100、A800等同的训练卡数量,训练算力达5.39EFLOPS,在行业内都属于头部。但这是一场昂贵的竞赛,招兵买马、购置 GPU、训练模型,这是巨额开支,需要有健康的利润来提供支持。
但外界认为,理想的智驾业务很激进,商业策略却相对保守。
李想在重庆汽车论坛上誓言,端到端+VLM会在3年内实现L4级别自动驾驶。但理想不但没有想过Robotaxi这门生意,甚至到目前为止仍没有表露出对智驾收费的兴趣。
从公司成立第一天开始,标配和免费就是理想进入智能驾驶就制定的策略。未来,“有监督的自动驾驶对所有AD Max的车主也是不收费的。”郎咸朋告诉我们,公司目前的交付量比较好且企业经营稳健,也有足够的资源投入智驾研发。
与小鹏、蔚来不同,理想的智驾KPI并不是取得经营收入,而是为销量服务。过去一年,理想直面鸿蒙智行,销量承压。而鸿蒙智行的最大卖点,就是华为的ADS智驾能力。理想免费的AD MAX智驾可以在最大程度上帮助抢下更多订单。
理想 L6
据理想汽车发布的数据显示,公司7月-8月交付量达到5.1万辆和4.8万辆,同比增长49.4%、37.8%。展望第三季度,理想汽车预计季度交付量达到14.50万辆至15.50万辆,同比增长38.0%至47.5%;收入总额预计达到394亿元至422亿元,同比增长13.7%至21.6%。根据指引,9月理想汽车将保持5万辆交付,并在10月实现累计交付百万辆。
郎咸朋表示,无图NOA全量推送之后,门店的试驾量和销量都有大幅度的提升。近两个月,专门进店试驾AD Max的数量翻了一倍。其中30万元以上的车型,AD Max超过AD Pro,占比提高到70%,理想L9 AD Max占比甚至达到90%以上。
如今,中国汽车行业已全面进入智驾时代,淘汰赛已然开始,智驾业务的烧钱程度很难再让新势力们一直保持“交个朋友”的状态。一张训练卡的成本10万元起跳,智驾千人团队的人力成本每年10亿元起步,理想汽车的端到端智驾最终能否收获同等回报,还需要等到全面交付时再下定论。