过去数年间,智能驾驶领域的竞争焦点经历了显著演变。
初期,竞争集中于硬件层面,例如是否配备激光雷达、摄像头数量以及算力目标(TOPS)。随后,随着大模型技术的兴起,竞争转向了端到端、VLA(视觉-语言-行为)以及World Model(世界模型)等技术路线。
如今,越来越多的企业认识到,单纯拥有更大的模型已不足以构成代际优势。真正决定技术上限的关键,在于模型、数据、算力以及芯片之间能否形成一个持续优化的闭环。
这也解释了为何越来越多的汽车制造商选择自主研发。
特斯拉几乎涵盖了从数据采集、训练基础设施、FSD模型到Dojo超级计算机和自研芯片的全链条。在中国,小鹏、蔚来以及理想等车企也在不断向更底层技术进行延伸。
在今年发布的L8和L9车型中,理想已采用了自研的马赫M100芯片。这款采用数据流架构的芯片被理想视为AI领域的一个重要技术方向。同时,理想也在马赫M100上运行了其自研的马赫VLA模型。
然而,对于整个行业而言,更值得探讨的问题并非“是否进行自研”,而是这些研发投入究竟能解决哪些具体问题。
带着这一疑问,我们与理想汽车自动驾驶负责人詹锟、芯片负责人谢炎进行了深入交流。他们阐述了理想对下一代自动驾驶技术路线的判断,并解释了自研芯片、数据体系以及AI基础设施背后的设计理念。以下为部分访谈内容摘要,经过编辑整理:
问:为达到特斯拉FSD V14在第四季度(Q4)的效果,理想汽车还需要在哪些方面努力?
詹锟: 我认为要追赶FSD,需要从两个层面来看。
首先是基础体验,具体体现在三个方面:安全性、效率和舒适度是否能达到FSD的同等水平。FSD在安全感方面表现出色,效率很高,舒适度也很好,这是其基本功。即使不处理极端复杂的路况,也能在这些基础体验上达到同等水平。
其次是能力层面,这方面追赶的难度也很大。例如,特斯拉能够识别并礼让特殊车辆,能在极窄的通行环境中实现精准感知,并能识别交警的指挥手势,这些能力都非常强大。
能力上的提升存在架构升级的机会。为什么其他公司没有而特斯拉拥有这些能力?这可能与过去的技术范式有关,限制了这些能力的发挥,原因可能在于架构和数据。我们在这些方面进行了大量探索。
问:我理解马赫VLA是一个技术体系而非单一模型。例如,Mind-Edge是服务于智能座舱的端侧模型。那么,当前智能驾驶模型中是否还包含“L”(Language语言)的部分?
詹锟: 当前自动驾驶的架构普遍趋向于整合VLA(视觉-语言-行为模型)和World Model(世界模型)。
从长远来看,所有技术路线都将朝着这个方向发展。无论是在VLA还是World Model中,都需要利用Language(语言)作为提示(Prompt)。因此,Language部分必然存在,关键在于如何有效地运用它。
我认为,对于机器智能而言,基于视觉(Vision Based)的理解方式更为合理,它更能体现对空间、三维空间以及环境的感知和交互。Language(语言)同样具有价值,对于理解环境、交通规则、指令以及进行复杂的决策思考都至关重要。
从长远来看,基于Vision和Language的原生基础模型,可能是未来的发展趋势。
谢炎: 如果要实现L3、L4级别的自动驾驶,需要解决更泛化的问题,那么模型必须具备类似人类的思考能力。在这种情况下,语言的重要性将越发凸显,这也是未来需要巨大算力的原因之一。
如果模型仅具备Vision和Action(视觉和动作)能力,即使拥有大量数据,在遇到分布之外的情况时也会束手无策。就像动物即使学会了所有常见情况,面对从未见过的情境也会不知所措。
我们认为,随着自动驾驶向L3、L4级别迈进,需要解决的问题越来越接近90%、95%、98%之后的情形——即那些前所未见的问题,需要模型具备像人类一样的思考能力。而实现类似人类的推理和思考能力,其来源是语言模型。例如,理解交警的手势,判断其意图是让你通行还是停止,这并非仅仅通过收集或生成数据就能解决的问题。
问:随着理想汽车车队规模的不断扩大,从内部来看,数据的边际效应是否出现了衰减?理想汽车是如何定义有价值的数据的?
詹锟: 首先,数据的体量必须足够庞大,其本质是为了收集更多的Corner Case(长尾场景)。目前,业界有多种方法可以在车端部署有效的神经网络触发器(neural trigger),用以判断场景的难易程度,然后将关键数据回传。这也是特斯拉目前表现出色的重要原因之一。
其次,数据质量至关重要,这主要体现在行为质量方面。目前,业界正逐渐收敛到端到端的范式,无论是VLA(视觉-语言-行为模型)、World Model(世界模型)还是Vision-Action(视觉-动作模型),都可以实现,但关键在于对Action(行为)的准确把握。此时,行为的质量,包括其清晰度和一致性,就显得尤为重要。
至于数据规模增加后边际效应是否会衰减,首先,只要模型不断提升,只要我们追求达到100分的表现,其增长曲线必然是“对数曲线”,即增长速度逐渐放缓,而非线性增长。任何一家AI公司都面临这种情况。尽管后期数据收敛的速度确实会变慢,但我们也希望通过扩大规模来加速这一进程。
问:马赫M100芯片能够支持多种AI场景的运行。展望未来五年或更长时间,理想汽车车内的算力中心是否有可能完全采用自研的马赫芯片?
谢炎: 尽管业内存在“舱驾一体”的说法,但我们认为,舱驾一体最核心的部分在于AI算力。其他部分的整合是否一体化则不那么关键。因为座舱系统与AI智能驾驶系统可以完全独立运行,但AI算力可以集中处理,从而大幅提高效率。
我们的路线图最终目标是构建一个车内AI计算中心,所有AI任务都可以在这个中心进行计算。这类似于在笔记本电脑上运行OpenClaw,AI计算并非在笔记本本地进行,而是在Token Provider Server(Token供应服务器)上完成,车内的情况也类似,会有一个Token Server(Token服务器)。
这个Token Server的优势在于:第一,效率极高。第二,能够实现不同任务之间的隔离,互不干扰。例如,智能驾驶任务的确定性——无论是内存还是带宽,都能得到保证,不被其他任务干扰,这是软硬件协同设计才能实现的结果。
问:是否因为M100采用了数据流架构的AI推理芯片,其对带宽的需求相较于其他厂商的自动驾驶芯片较低,但对片上存储的需求更高?
谢炎: 我们对带宽的要求确实会较低,但这并非设计SRAM容量(非显存)的直接原因。目前HBM(高带宽内存)非常流行,许多人认为带宽越高越好。计算、带宽、SRAM等都需要晶体管资源来实现,最终的设计是基于成本、综合性能等多种因素考量的结果。
不同架构的设计,仅凭一两个指标进行简单对比,既不合理也不专业。这就像拳击比赛,身高和体重都有各自的优势,但胜负并非由单一指标决定,最终比拼的是整个比赛的实际表现。
问:为何当前的大算力芯片方案,例如英伟达、小鹏以及理想自研的芯片,都没有实现芯片级的舱驾融合,而高通却在低算力芯片上进行了这方面的尝试?原因是什么?
谢炎: 本质上讲,座舱和驾驶是两个独立的系统。特别是对于高端L3向L4级别的自动驾驶,智能驾驶需要一个更高确定性的系统,要求内存和计算资源是专用的。在这种情况下,融合的意义就大大降低。因为资源无法进行实时切换,而实时切换会降低系统的确定性。如果朝着越来越专用的方向发展,融合的价值就不大了——即使将两个芯片集成在一起,晶体管数量可能不变,仅仅节省了封装成本。对于中低端芯片而言,这笔费用可以节省,但节省幅度有限。
我们看到,目前所谓的舱驾融合系统,实际上还是分开运行的。它们无法实现“一会儿运行这个,一会儿运行那个”。如果无法实现这种动态切换,将两个芯片集成到一起,晶体管数量可能不变,只是节省了封装成本。对于中低端芯片而言,这部分成本可以节省,但节省的总量并不显著。
我的观点是,随着智能驾驶技术向更高端发展,舱驾融合的意义可能并不大。如果能将这些芯片设计得更靠近,在一块电路板上实现高度集成的小型化方案,这是可行的,不一定非要集成在一块芯片上,也可以是多块芯片协同工作。
问:自研芯片需要具备哪些条件?例如销量、营收、研发投入。当前自动驾驶迭代速度很快,芯片要实现持续迭代,需要哪些支撑条件?
谢炎: 芯片的初期投入确实不菲,可能每年需要数亿元人民币。
第一个条件是达到一定的营收规模。对于车企而言,年营收达到1000亿元以上,研发投入至少占10%,即每年拥有数十亿至上百亿元的研发资金,才有可能持续投入芯片研发。第二个条件是,芯片研发所解决的问题,必须能显著提升产品的核心竞争力。
许多人认为芯片需要巨大的出货量才能摊薄成本。实际上,芯片的成本与面积密切相关。一辆车上的智能驾驶芯片,例如理想L7/L8/L9的智驾系统使用了两颗马赫M100,总面积约为800平方毫米。而一款高端手机芯片的面积大约为100平方毫米。因此,一辆车的智驾芯片面积相当于8部高端手机芯片的总和。
这样算下来,如果年销量达到几十万辆,所需的晶圆面积将非常可观,足以有效摊薄芯片的制造成本。所以,不能仅通过芯片数量来衡量成本。
问:动态数据流编译器究竟难在哪里?攻克这一技术花费了多长时间?
谢炎: 在芯片流片之前,甚至在设计阶段,我们就已经开始进行编译器的工作,并且在流片之前,就已经在模拟环境中成功运行了许多模型。
数据流架构是一种完全不同的设计理念,它所要解决的问题与超级计算机或大规模计算机集群面临的问题非常相似——当规模扩展到数十万台计算机、上百万个核心时,它们之间的通信和协作将成为挑战。此时,无法依靠一个中央管理员来统一管理如此庞大的计算单元。传统的冯·诺依曼架构下的调度方式在这种规模下已不可行,这是一个超大规模并行调度的难题。
