理想詹锟GTC分享的MindVLA-o1:要做面向具身智能的全景架构......
点击下方卡片,关注“自动驾驶之心”公众号
戳我->领取自动驾驶近30个方向学习路线
编辑 | 自动驾驶之心
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
今天下午,理想汽车基座模型负责人詹锟在NVIDIA GTC 2026上分享了下一代自动驾驶基础模型MindVLA-o1。
MindVLA-o1的主题,我们在半个月之前就开始关注。在自动驾驶趋于收敛的下半场,作为技术人还是非常希望业内能有更多像理想汽车一样的公司分享最新的技术进展。
听完Talk收获很多,先总结一下:MindVLA-o1是一个结合隐式世界模型,并统一空间理解、思考推理以及行为决策的VLA模型架构。
MindVLA-o1在MindVLA的基础上进一步进化,围绕「原生多模态」的设计理念所构建。从目前的信息来看,理想汽车坚持把视觉、语言和行为三种模态纳入一个统一框架,也即「原生多模态」的含义。它并非先分别训练视觉模型、语言模型和轨迹模型,再在后期进行组合。
这种统一的设计理念使得不同模态能够在同一个表示空间中共同训练与对齐,从而获得更高的效率和更好的泛化能力。
下图是MindVLA-o1的整体架构图,其中包含的信息可以从以下几个维度展开:
输入端:导航、位姿、GPS、视觉、Lidar和语音指令;
输出端:推理决策CoT、隐世界模型、统一行为生成;
算法端:原生多模MoE、闭环强化学习、3D空间视觉编码;
推理端:软硬件协同架构。
自动驾驶VLA的现实困境
在深入展开MindVLA-o1之前,詹锟分析了主流VLA方法存在的三大局限。
1)3D空间、语言思考与行为之间的对齐效率较低
★第一个局限:3D空间、语言思考与行为之间的对齐效率较低。
在车辆进行辅助驾驶的过程中,VLA需要同时完成三件事:
环境感知:在3D空间中有哪些元素 — 车辆/行人/红绿灯等;
推理思考:哪些元素需要车辆重点关注以及宏观层面的决策;
输出行车轨迹:即车辆如何根据感知到的环境信息和模型的思考结果行动。
如果这三个过程没能实现较好的对齐,会导致两类问题:
幻觉:即语义理解与行为之间产生偏差,模型能够理解场景但生成的轨迹不符合预期,举个例子:车辆前方需要保持在直行车道行驶,但实际输出右转轨迹。
延迟:即视觉、语言和行为之间的链路过长导致车辆反应速度很慢,最直接的例子是思维链太长抓不住关键点,导致车辆一直在原地等待。
为了更好的方便大家理解,可以参考下面这张图,非常直观的展示了什么叫做「好的对齐效果」。
2)长尾场景覆盖不足
★第二个局限:长尾场景,即极端场景覆盖不足。
这部分的内容理想汽车在ICCV期间和大家分享过,整个业内都面临长尾场景泛化较差的问题,一是场景罕见,二是无法复现。
举个例子:前方发生了严重的多车连环追尾事故。这种场景一是极少,二是后续测试中无法实车复现。
所以仅仅依靠真实数据的规模扩展,是没办法有效解决极端场景覆盖不足的问题。
因此MindVLA-o1在设计之初就考虑结合合成数据与强化学习,在仿真环境进行大规模训练和Scaling。
3)模型推理效率与计算成本失衡
★第三个局限:模型推理效率与计算成本的不平衡。
VLA模型的推理依赖较高的计算带宽和内存开销,在车端有限的资源下,既要高效的运行VLA,又要保证足够的性能。
所以软硬件协同设计,联合优化模型架构、推理系统及硬件能力,也是理想汽车实际在推进的方向,即自研端侧芯片马赫100 。
下一代架构:自动驾驶基座模型MindVLA-o1
接下来,就是针对三大局限,MindVLA-o1给出的解决方法,主要有五个核心的技术创新:
对齐问题:3D自监督、隐式世界模型和统一行为生成;
长尾问题:基于强化学习的世界仿真框架;
推理问题:软硬件协同的端侧推理加速。
1)基座进化:从2D BEV迈向3D自监督
传统BEV方法将场景拍平为俯视图,以表征3D物理世界,这迫使模型只能关注高度方向上最显著的单个目标。
占据栅格OCC虽然是三维特征,但过于稠密的特征表示,使得下游应用计算开销太大,且缺少语音信息 —— 只知道某处有物体,却不清楚该物体是否会造成碰撞。
另一方面,以往的自监督模型主要利用二维图像训练视觉编码器,同样丢失了3D的空间信息。所以理想汽车选择重构3D ViT 视觉编码器:
同时利用视觉和LiDAR数据:采用以视觉为核心的3D ViT视觉编码器,利用激光雷达点云作为三维几何提示,引导模型理解真实空间结构,使其在单一表示中同时具备语义理解与三维感知能力;
引入前馈式3DGS表示:为了进一步提升环境理解能力,将场景分解为静态环境与动态物体分别建模。在快慢双系统的时代,理想汽车就做了很多为业内奠基的重建工作(Street Gaussians),所以也很自然的过渡到了前馈GS,而这个技术,也已被理想汽车和特斯拉同时押注。
下一帧预测:训练中使用下一帧预测(Next-State Prediction)作为自监督信号,同时学习深度信息、语义结构和物体运动,这使得模型不仅能理解当前场景,还可以预测未来的状态变化。
最终得到的3D ViT表示融合了空间结构与时间上下文信息,为后续决策模型提供高质量的3D世界表示。
可以参考的工作有:InfiniDepth、Mobile-GS、GeoDrive和RGS。
2)思维进化:预测式隐世界模型
在得到更丰富的空间表征之后,理想汽车把世界模型的思想注入到MindVLA-o1中。在许多复杂驾驶场景中,自动驾驶系统不仅需要理解当前环境,还需要预测未来可能发生的事情。
理想汽车选择的路,叫做「预测式隐世界模型」(Predictive Latent World Model)。
直接生成未来图像的计算成本过高,因此选择在隐空间中进行高效预测。系统首先将当前视觉输入编码为一组Latent Tokens作为场景的紧凑表示,然后由世界模型基于这些Tokens预测未来的场景表征。
为了实现这个能力,理想汽车进一步分享了训练的细节:
第一步通过大量视频数据预训练隐空间Token,构建未来场景的隐空间表征;
第二步在MindVLA-o1中继续世界模型推演,构建隐空间的未来场景推理能力;
第三步将世界模型、多模态推理能力以及驾驶行为进行联合训练和对齐。
理想汽车将这种能力称为「多模态思考」(Generative Multimodal Thinking) —— 即自动驾驶不仅需要理解当前场景,做出逻辑判断,还需要预测未来可能发生的情况。
通过这种能力,VLA会进化的更拟人,就像人类开车一样:我们会判断下一刻场景会带来怎样的后果,而世界模型就是赋予VLA思维进化的核心引擎。
从这部分分享的内容,也印证了自动驾驶之心先前的思考:VLA和世界模型不是竞争关系,而是逐渐走向融合统一。
★VLA和世界模型并不冲突,终极目标是一致的。世界模型可以作为数据引擎、闭环引擎,甚至可以参与到VLA的模型训练过程中,融合是大势所趋。
而更深一层的逻辑是:世界模型可能不适合直接作为行为的输出表征,更适合作为模型理解物理世界演化的一个桥梁,在训练和推理的阶段参与行为的优化。
可以参考的工作有:WorldRFT和闭环训练框架AD-R1。
3)行为进化:统一行为生成
在把视觉基座和思维基座对齐之后,MindVLA-o1的最后一步是「统一行为生成」。这部分主要有三层设计:
第一层是Action Expert(动作专家)。在VLA-MoE架构中,理想汽车引入了专门的「动作专家」模块,从3D场景特征、导航目标、驾驶指令等多个输入中提取关键信息,结合多模态CoT,专注于生成高精度的驾驶轨迹。
第二层是Parallel Decoding(并行解码)。为满足自动驾驶的实时性要求,MindVLA-o1没有采用传统的自回归逐点生成方式,而是采用并行解码,所有轨迹点同时并行生成,大幅提升轨迹生成效率,尤其在长时间序列轨迹预测时优势更为明显。
第三层是Discrete Diffusion Refinement(离散扩散优化)。为保证并行生成轨迹的质量,理想汽车引入离散扩散(Discrete Diffusion)优化方式,模型通过多轮迭代不断对轨迹进行优化,类似于逐步去噪过程。最终生成的轨迹在空间上连续、时间上稳定,同时满足车辆动力学约束。
有三个技术是理想汽车首先落地上车的:MoE、并行解码和离散扩散优化。我们可以尝试这么理解:
三个臭皮匠顶个诸葛亮:MoE就是在做这个事情。假设能维持车端实时推理的模型参数量是3B,现在使用三个更小的1B模型,三者同时推理的效率大体与一个3B模型相等,但实际能产生的价值却比一个大模型更高,因此最终可以实现 1 + 1 > 2的效果;
并行解码更快:自回归方式最大的弊端就是推理效率较低,所以采用并行解码的方式,将所有轨迹点一次性同时生成,这部分可以重点参考下扩散模型的轨迹生成方法,理想汽车在这个领域的探索很深,走在业内的前列;
离散扩散优化:为了进一步提升轨迹生成的质量,引入了离散扩散优化,可以参考理想汽车自研的算法工作ReflectDrive。
★这三层设计背后的逻辑是:专家模型(MoE)保证自动驾驶场景的专业能力,并行解码(Parallel Decoding)保证行为轨迹的生成速度,扩散模型(Diffusion)保证轨迹的推理精度:
在引入「统一行为生成」之后,MindVLA-o1所包含的V、L、A三个模块就实现了闭环的对齐链路。
整体上看,这三者相辅相成又互为表里,这也是为什么理想汽车强调「视觉、语言和行为三种模态要纳入一个统一框架」。
可以参考的工作有:LinkVLA、ReflectDrive和LightVLA。
4)闭环进化:基于强化学习的自进化
下一个部分,理想汽车重点强调了自研的闭环强化学习框架,结合詹锟在ICCV中分享的观点:数据闭环虽然有效,但仅靠数据闭环解决不了所有问题。
所以,模型不仅可以从真实数据中学习,还可以在世界模拟器(World Simulator)中不断探索和优化。
在整个强化学习框架中,世界模型仿真的能力决定了强化学习的上限。基于这个出发点,理想汽车进行了一个关键的技术升级:
★将传统的逐步优化式重建升级为Feed-forward(前馈)的场景重建方式,使系统可以瞬时生成大规模、高保真的驾驶场景,支持大规模并行训练。
同时,将前馈场景生成与生成式模型结合,使得仿真环境不仅可以重建真实场景,还可以扩展、编辑和生成新的场景。
在工程基础设施方面,理想汽车与NVIDIA团队共同构建了统一的3D Gaussian Splatting渲染引擎以及分布式训练框架,实现渲染速度提升接近2倍、整体训练成本降低约75%。
正是这种效率的提升,理想汽车才能真正实现低成本、高效率的强化学习闭环。
可以参考的工作很多:ReconDreamer、StreetCrafter、DrivingSphere、CorrectAD等等。
5)端侧进化:软硬件协同
最后一部分是理想汽车在车端平台上的探索,在端侧部署大模型时,高精度模型通常难以在车端运行,而能运行的模型又往往精度不够。传统做法是通过大量实验反复调整模型结构,这一过程通常需要数月时间。
基于现实的问题,理想汽车提出了面向端侧大模型的软硬件协同设计定律。
在这一框架中,不仅建模了模型结构与验证损失之间的关系,还结合Roofline模型来刻画硬件计算能力和内存带宽的限制,在模型性能与硬件约束之间建立统一的分析框架。
值得一提的是,理想汽车评估了接近2000种不同的模型架构配置,在NVIDIA Drive Orin与Thor平台上完成验证,成功找到模型精度与推理延迟之间的Pareto Front(帕累托前沿)—— 在给定计算预算下,模型层数、隐藏维度及MoE激活比例的最优组合方案。
经过实践,理想汽车发现在端侧计算资源受限的情况下,更宽但更浅的模型架构往往比传统的深层模型更加高效。通过这套软硬件协同设计方法,端侧VLA模型架构探索时间从数月缩短至几天,大幅提升了设计效率与部署速度。
论文标题:Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs
论文链接:https://arxiv.org/abs/2602.10377
以上就是MindVLA-o1五个核心技术创新的解析,自动驾驶之心直观上的感觉:这不是理想汽车智能驾驶一次常规的技术迭代,而是他们从「感知智能」迈向「认知智能」的一次深度实践。
理想汽车作为国内最先落地端到端和VLA的头部新势力,所面临的挑战是其他家难以望其项背的。
而MindVLA-o1作为下一代自动驾驶基座模型,统一了车端推理、云端仿真和闭环进化的三条链路。
更为深远的影响在于:MindVLA-o1 验证了一条可规模化的具身智能演进路径,VLA可以在资源受限的车端和机器人本体上实现高效部署与持续自进化。
最后,我们看一下理想分享的实车效果。
理想的野心:要做面向具身智能的全景架构
回顾过去三年,理想汽车在自动驾驶领域并未选择保守的渐进式路线,而是保持了极高的技术迭代频率,完成了三次大的架构迭代。
在三年前,可能没多少人会相信理想汽车能做到智驾的第一梯队,在模块化和规则的时代,理想汽车想要破局非常困难。
第一次,他们选择跳出现有的框架看未来,选择了端到端。
★这是整个行业从Rule-based向AI-based迈进的起点。
第二次,他们选择让猴子进化成人类,选择了VLA。
★这是整个行业开始意识到模仿学习无法真正实现端到端。
第三次,他们选择让儿童进一步成长,选择了原生多模态。
★这是整个行业开始进入物理AI时代的开端。
理想汽车先一次次突破自己原有的方案,在一次次打破行业对人工智能的认知。
在分享的尾声,理想汽车拿出了一整套面向具身智能的AI框架,由四大核心部分组成:
MindData是统一的VLA数据引擎,用于持续采集、清洗和自动标注大规模驾驶数据,为模型训练提供高质量的数据基础;
MindVLA-o1是统一原生多模态的VLA模型,具备环境理解、推理和驾驶行为生成能力;
MindSim是可控的多模态世界模型,能够生成各种复杂驾驶场景,支持大规模闭环训练,突破真实世界数据的规模限制;
RL Infra是强化学习基础设施,通过奖励模型和策略学习,使系统在仿真和真实环境中持续自我进化和迭代。
这四部分组合在一起时,构成了理想汽车面向具身智能的基础模型全景图。通过这套系统,AI不仅能够看见世界,还能够理解世界、在世界中行动,并持续从经验中学习。
理想汽车认为,整个行业正在进入一个新的阶段 ——具身 AI 的时代。
过去,自动驾驶更多被看作是一个专门的任务:让车辆在道路上安全行驶。
但现在,当我们把视觉、语言和行动统一在一个模型中之后,这个系统其实已经不仅仅是一个自动驾驶模型了。
而是逐渐演化成一个通用的物理世界智能体。
理想汽车已经验证同一套 VLA 基础模型,不仅可以控制车辆,也可以控制机器人。
这也意味着,我们可以用同一套基础模型、同一套数据系统,去训练不同形态的物理智能体。
所以,从某种意义上说:自动驾驶只是物理 AI 的一个起点。
未来,类似的基础模型将驱动车辆、机器人,以及各种物理系统。
而这,也正是理想汽车所说的:新的具身 AI 范式——Physical Agents。
这,就是理想汽车眼中的未来,也是他们正在亲手打造的现实。
自动驾驶之心
求点赞
求分享
求喜欢
