4QoAWuEFRGh tech.huanqiu.comarticle李想称自动驾驶只是物理AI的一个起点/e3pmh164r/e3pmtmdvg【环球网科技综合报道】近日,理想汽车基座模型负责人詹锟在NVIDIA GTC 2026 上发布了下一代自动驾驶基础模型 MindVLA-o1。对此,理想汽车 CEO 李想在社交平台发文称,其在底层实现了一个核心突破:原生3D ViT——真正的三维视觉编码器。李想提到,今天所有的端到端系统本质上都是“看2D视频学开车”,更像是一个人坐在电脑前看了十万小时行车记录仪,然后直接上路。它有了智能,但离人类的智能程度差得远。过去我们和行业使用的BEV把世界从俯视角拍扁,丢失了高度信息;OCC确实是3D的,但缺失了语义信息。物理AI缺的不是更大的模型、更多的数据,而是一个能真正理解3D世界的视觉基础。 “3D ViT解决了这个问题。不再是从2D‘还原’3D,而是让模型一开始就工作在真实的三维世界里。以高分辨率多视角视觉为核心,在编码阶段直接完成对3D空间几何和语义的统一理解——空间结构、位置关系、语义信息,一次完成。模型不只是看见画面,而是理解世界,既知道它在哪,也知道它是什么。”李想说道。他解释称,在这个体系下,激光雷达的角色变了。它不再是感知的核心,而更像一把高精度的尺子,为视觉提供几何标定和近场空间约束。真正决定感知上限的,不是传感器的物理线数,而是模型的表征能力。在统一建模下,3D ViT可以稳定感知并推理到500米以上的空间范围。“有了3D ViT打底,MindVLA-o1把空间理解、思考推理、驾驶行为统一在一个模型里。不光看见世界,还能在隐空间里模拟未来几秒的场景变化,想清楚再开。我们把这种能力称之为多模态思考。”李想说。“我们也已经进行了验证,这套基座模型不只是为自动驾驶设计的。同一套VLA基座模型,能开车,也能控制机器人,它正在逐渐演化成一个通用的物理世界智能体。”他总结道,“自动驾驶,只是物理AI的一个起点。”(青山)1773889448443环球网版权作品,未经书面授权,严禁转载或镜像,违者将被追究法律责任。责编:王楠环球网177388944844311[]//img.huanqiucdn.cn/dp/api/files/imageDir/ab61cfb6cbaf95fa5636a97003d72f72u1.png{"email":"wangnan@huanqiu.com","name":"王楠"}
【环球网科技综合报道】近日,理想汽车基座模型负责人詹锟在NVIDIA GTC 2026 上发布了下一代自动驾驶基础模型 MindVLA-o1。对此,理想汽车 CEO 李想在社交平台发文称,其在底层实现了一个核心突破:原生3D ViT——真正的三维视觉编码器。李想提到,今天所有的端到端系统本质上都是“看2D视频学开车”,更像是一个人坐在电脑前看了十万小时行车记录仪,然后直接上路。它有了智能,但离人类的智能程度差得远。过去我们和行业使用的BEV把世界从俯视角拍扁,丢失了高度信息;OCC确实是3D的,但缺失了语义信息。物理AI缺的不是更大的模型、更多的数据,而是一个能真正理解3D世界的视觉基础。 “3D ViT解决了这个问题。不再是从2D‘还原’3D,而是让模型一开始就工作在真实的三维世界里。以高分辨率多视角视觉为核心,在编码阶段直接完成对3D空间几何和语义的统一理解——空间结构、位置关系、语义信息,一次完成。模型不只是看见画面,而是理解世界,既知道它在哪,也知道它是什么。”李想说道。他解释称,在这个体系下,激光雷达的角色变了。它不再是感知的核心,而更像一把高精度的尺子,为视觉提供几何标定和近场空间约束。真正决定感知上限的,不是传感器的物理线数,而是模型的表征能力。在统一建模下,3D ViT可以稳定感知并推理到500米以上的空间范围。“有了3D ViT打底,MindVLA-o1把空间理解、思考推理、驾驶行为统一在一个模型里。不光看见世界,还能在隐空间里模拟未来几秒的场景变化,想清楚再开。我们把这种能力称之为多模态思考。”李想说。“我们也已经进行了验证,这套基座模型不只是为自动驾驶设计的。同一套VLA基座模型,能开车,也能控制机器人,它正在逐渐演化成一个通用的物理世界智能体。”他总结道,“自动驾驶,只是物理AI的一个起点。”(青山)