2023 年年初,理想汽车 CEO李想发布全员信,信中提到,理想的愿景是在2030年成为全球领先的的人工智能企业。
在同年4月的上海车展上,理想汽车提出了「年内实现100座城市NOA」的开城目标。
两次发声,让外界看到了理想在智驾、AI 科技领域的决心。
但是在年中的成都车展上,理想汽车却「悄悄地」更改了百城目标——百城的开城目标将以通勤模式实现。
时间来到9月,李想在秋季战略会上进行了「反省」,称理想汽车的智能驾驶应该提前半年全力投入。
整个2023年,理想汽车的智能驾驶在华为、小鹏面前都是「被动挨打」的。
提出了稍显激进的开城目标,但更改了交付方式,更致命的是,同期的华为在发布问界 M7 时提出了年底「全国都能开」的目标;在体验上,理想的智驾表现也没有做到让人眼前一亮。
理想的 AD 团队,背负了巨大压力。
但去年一整年里,鲜有外人知道,理想在进行城市NOA交付的同时,还在进行端到端的预研。
而到了今天,距离「李想反省」还不到一年时间里,理想智能驾驶全新技术方案,已经开始了千人团队的早鸟测试。
理想的双系统究竟是什么?它的优势在什么地方?理想是如何做到这么快部署端到端的?
带着这些问题,我们与理想汽车智能驾驶研发副总裁郎咸朋博士、理想汽车技术研发负责人贾鹏进行了一场对话。
什么是理想智驾的双系统?
今年 7 月,理想召开了智能驾驶夏季发布会,向外界公布了理想AD的全新技术方案,基于 E2E+VLM大模型的双系统。
当时介绍,理想的双系统是从《思考,快与慢》中得到的启示。
理想效仿人类大脑的工作模式,将智驾系统切割为系统一和系统二,系统一即是端到端,它的效率很高,善于处理简单任务,是人类基于经验和习惯形成的直觉,足以应对驾驶车辆时95%的常规场景。
而系统二则是VLM视觉语言大模型,它更擅长逻辑推理,去执行复杂的分析,在驾驶中给系统一提供更加符合逻辑、准确的驾驶决策。
举个例子,当我们行驶到收费站时,系统一,即端到端是可以自己过ETC的,但是问题在于,它不知道该走哪条路,到底是走ETC道还是走人工道。
VLM在这场场景下,就可以通过理解文字、LED灯等信息,来把决策结果和参考的轨迹扔给系统一,扔给端到端模型,端到端模型推理后,采用这个信息。
以此类推,端到端能够帮助智驾系统完成大量的无趣的、日常的场景,但是到了施工、复杂路口等场景时,VLM就会进行场景推理,双系统协作完成。
理想汽车技术研发负责人贾鹏表示,两个系统一直都在实时运行,跑端到端的模型比较小,帧率比较高,可以跑十几赫兹。VLM 的模型参数量要大很多,它是 22 亿参数,目前能跑大概3-4赫兹之间。
目前,双系统是松耦合的,未来可能会紧耦合,模型越来越大。
另外,贾鹏还透露:「未来大模型也可能借鉴现在多模态模型的大模型发展趋势,原生多模态走,既能做语言也能做语音,也能做视觉,也能做激光雷达,这是将来思考的事情,这套东西可能就是我们心目中想追求的终极答案」。
刚才我们说的是理想的系统一和系统二,双系统协同,让车辆更拟人行驶。
其实这套系统还有系统三,也就是理想的「世界模型」,与蔚来的 NWM 世界模型不同,理想的世界模型只用于验证和强化学习,不作为信息输入。
端到端的一大好处是它的能力上限会更高。郎博在这里举了个通俗易懂的例子:传统的规则时代,系统能力的上限就是你设计产品的能力,例如你要下匝道,要走etc,要去做一些超车变道这样的能力,这个能力可能有拆解、有细化等等,这些拆解和细化就是它的上限。
但是端到端是一种「黑盒」模式,对于能力的评价和测试是不确定性的,你很难测试和验证,所以需要优质的数据和兜底的手段。
所以理想构建了一套世界模型,来对模型进行验证,这套题库的来源有两种方式。
首先是真实车主的数据,理想根据用户,产品和整车的主观评价团队,与内部的一些老司机共同制定了「老司机标准」,他们会给理想车主的驾驶行为进行打分。
如果有一位司机经常开出AEB,他们会认为这位司机风格偏激进,不可取,理想用这样的标准给80万车进行了打分,符合「老司机标准」的只有3%。
当然还会有「错题库」,在正常的测试和开车过程中,用户的接管和退出就是错题库。
真题库和错题库都有了,理想还会再生成一些模拟题,根据现有的数据举一反三,比方说有个匝道总是出问题,那么匝道的场景,理想都会进行训练,再生成一些匝道的内容,这就是模拟题。
当然,不管是好的案例还是错题库,都是已发生的case,事实上这些还不能穷举现实世界的真实道路情况,也就是,还有很多长尾问题是用户没遇到的。
所以理想还有一些模拟生成重建的数据,当然理想的世界模型不是纯生成的。
贾鹏认为,纯生成的数据会有幻觉,理想的做法是重建加生成结合在一起,真的像高考一样,高考并不是把你高中的每一本书、每一个字都给考一遍。
将来大部分人都是在做一头一尾,中间模型本身的设计,可能没有那么多人。一头是数据,一头是考试,大部分人都在做这两件事。
端到端上车后,开发模式有何变化?
之前行业里的OEM或供应商喜欢在发布会上带上智驾研发人员规模,但是在今年端到端流行起来后,这个现象少了很多。
正如上文提到,端到端更需要抓住的是两头——数据和考试,中间的模型设计其实不需要人海战术。
2023年做无图时,理想进行了端到端的预研,并且参考了华为进行了智驾团队的扩张。
因为从当时的流程来看,全国的开城需要铺很大盘子,需要更多的人做分析、研发工程师和测试人员。但是再往后走,即便可以投很多资源,招到人,依然解决不了自动驾驶走向更高能力的问题。
到了端到端时代,比拼的是数据和算力。
理想在数据积累上一直都有比较长期的规划,例如2019年在理想ONE的摄像头旁边就加了一个数据分析和采集的摄像头。从那个时候开始,理想就在做数据闭环。
到了L789,这三台车型「长得像」,摄像头和其他传感器的位置大体一致,好处就是数据可以共用,目前理想有80万车主,积累了超过12亿公里的数据,是国内最多的,没有之一。
还有一点就是算力,目前理想云端算力有 4.5EFLOPS,从云供应商的数据来看,理想的卡和算力是最多的,当然建设这样的算力集群需要大量的资金投入。
郎博称,理想的云端算力在明年会有一个指数的上升,如果做到 L3和L4自动驾驶,一年的训练算力花销得到10亿美金,所以需要车企具有盈利能力,自动驾驶将来就是算力和数据的竞争。
当然,在这次访谈中,郎博和贾鹏也聊到了一些端到端时代的开发细节。
例如,黑盒模式导致了结果的不可解释,一旦车辆出现了怪异行为该怎么办?
目前理想在推送的版本,其实是做了安全兜底工作,端到端模型生成也是行驶轨迹,理想会筛查这些问题并且做过滤。
借端到端超车?理想AD如何实现高效迭代?
在采访之后,我们在理想北京顺义总部周围进行了简单的试驾,这套端到端系统给我们的感受是,它的一些关键场景的表现确实更加拟人,例如复杂路口的连续绕行,确实少了「规则感」。
去年年中还在修改开城目标的理想,是怎么在一年内就实现端到端千人内测的?
通过这次沟通,我认为理想AD能够快速迭代的原因有两个,第一是团队的组成和分工,第二是李想给予的重视程度和支持。
理想的自动驾驶团队分为RD团队和PD团队,PD团队主要负责工程落地,RD团队则主要负责技术预研。
理想一直都有一条交付的明线,包括去年在做的NPN和无图的量产交付;暗线则是预研,之前理想AD的大多数资源都在交付上,但是算法和研发人员会自发地做RD工作。
郎博称去年一年,他们做了三种技术方案,包括了NPN、无图和端到端的双系统。
目前理想主要资源在做双系统的交付,但同时也在进行下一代技术的预研,下一代技术指的就是上文中贾鹏提到的对未来技术趋势的判断,包括统一的大模型等等。
另一个原因是李想本人的重视程度,去年年中秋季战略会,李想生反思称应该提前半年全力投入自动驾驶,也是在那次会上,李想明确了智能驾驶是公司的重要战略。
写在最后
郎博称,他们在训练了80万Clips的数据量时,系统还不能通过环岛,但是在训练了100万Clips后,就惊喜地发现系统可以做到了。
这是端到端的魅力,过去想要系统自行掉头,需要根据不同角度的路口画拟合线,相同繁琐,但是现在只要给系统大量优质的数据就行。
很难想象你给系统投喂千万级Clips数量,它将展现出什么样的效果。
在进行了沟通和体验后,我个人有个比较深刻的感受是,智能驾驶真正的大决战将会在如今的端到端时代。
端到端将会彻底改变智能驾驶,包括智能驾驶研发团队的组织架构、工作方式和呈现的智驾能力。
而智驾的分水岭也很有可能在端到端时代到来,理想的端到端方案最快将在今年11月交付给用户,理想非常有信心能够在端到端时代领跑智能驾驶,在算力与数据的竞争上,理想目前还不怕竞争对手。
这场竞争,比拼的是数据和算力,但归根到底是钱的竞争。