世界模型今年将快速突破!自动驾驶或迎商业化拐点
“在统一架构、数据体系与算力支撑的共同推动下,世界模型将在今年迎来快速突破!”
在3月29日举行的2026中关村论坛年会专题论坛“AI未来论坛:跃迁·投资·共生”上,生数科技创始人、清华大学人工智能研究院副院长朱军提出上述观点。
如何构建
与此同时,对世界模型的定义正在被扩大化和模糊化。“有必要对‘世界模型’定义进一步澄清。”朱军表示,当前很多研究不完整。例如,一些交互式视频生成方法本质上仍局限于数字空间的重建,主要用于人与系统的单向交互,并不具备在真实环境中学习和执行动作的能力。
“世界模型”被流形空间创始人武伟分为两类:一类是在数字世界的世界模型,主为构建更实时的交互界面;一类是用于物理世界,成为可预测的机器人大脑。“支撑两种世界模型的能力并不一致,在数字世界要更多迎合创作者偏好,而在物理世界则要复刻真实的物理和机器人操作。”
以自动驾驶与具身智能为例,自动驾驶采集实车数据实现数据闭环,而机器人面临数据冷启动。武伟分析,很多公司倾向用类似自动驾驶的方式部署机器人,在真实环境进行遥操作实现数据采集。尽管数据质量很高,但存在模型性能随参数规模或算力投入增长的速率问题。“对于世界模型训练来说,用第一人称视角数据做预训练,可以解决这一问题。”
从企业经验出发,破壳机器人创始人、清华大学交叉信息研究院助理教授许华哲指出,在100个家庭进行数据采集,没办法泛化到10000个家庭。机器人预训练需要以第一人称视频做预训练,提供真正意义上的泛化。具体来看,先定义好做什么、不做什么,然后反向迭代系统,包括硬件、运控等。例如,破壳机器人的手并不能实现21个自由度,但是能把10件事做得泛化,然后等待升级。
朱军提出“统一的世界模型框架”,将跨模态生成与行动任务在理论上进行统一。这种统一不是工程拼接,而是结构层面的统一。从更宏观的角度来看,无论是数字世界还是物理世界,最终都将由不同形态的智能体构成。物理世界中的智能体具备“身体”,而世界模型则是其核心“智能中枢”。
构建通用世界模型可以回到大模型第一性原理,即可扩展的架构、大规模数据以及充足算力。朱军认为,世界模型应采用统一架构,而当前主流方法往往是模块化、碎片化,有的专注动作轨迹拟合,有的偏向预测,有的直接学习控制策略。此外,面临获取成本高、效率低的“数据墙”,可用数据构建多层体系——底层是海量互联网视频数据,中间是第一视角数据,加上与具体机器人无关的多主体轨迹数据。
技术突破
谈到世界模型技术可能性时,清华大学副教授章明星表示,很多世界模型路线是基于语言模型能力,再迁移到更多模态。然而,语言是否足以建模物理世界,还是需要另外一种浅空间语言?目前存在理论分歧。此外,通过数据训练还是通过物理空间,达到“物理遥测”还是“第一人视角”?物理空间模态及实现,仍待突破。
具体来看,2026年世界模型需关注两大技术突破。武伟称,一是实时操纵交互能力,二是世界模型后训练。“特别是强化学习与在线学习”,许华哲对此进行了具体阐述,让强化学习扩展到一百、一千、一万台机器人,在不损失成功率的情况下达到人一样的速度;另外,让具身智能在部署后还能针对奇怪的任务进行快速在线学习。
结合在视频大模型上的长期积累,朱军提出一个更清晰的技术路线:在底层,Diffusion Transformer(U-ViT)作为统一基座架构;在像素空间解码,对应Vidu视频生成模型,服务于数字内容创作;在动作空间解码,服务于物理世界具身交互。这意味着,同一个基座模型,可以同时支撑数字世界的生成能力与物理世界的行动能力。
据介绍,生数科技利用大规模未标注视频数据进行训练,构建一个可扩展的通用基座模型,并初步验证了其在多任务场景中的能力。例如:验证码操作任务——通过机械臂模拟人类操作鼠标,实现屏幕识别与精准点击;棋类决策任务——涉及长程规划与多步推理,需要感知、预测与决策协同:柔性物体操作——面对复杂、不规则物体,实现稳定抓取。
统一架构带来新发展路径。通过实验观察到两个关键现象,朱军称,一是相比传统Vision-Language-Action(VLA,视觉-语言-动作)路线,数据利用效率有量级提升;二是多任务泛化能力增强,统一模型下可以在50多个任务上实现高效泛化,且性能不降反升。相比之下,传统VLA模型(如PI0.5)在任务数量增加时性能会明显下降。
在落地层面,自动驾驶与工业垂直场景两大赛道将在2026年迎来商业化和资本化拐点。耀途资本创始合伙人白宗义直言,看好具身智能时代的新机会——末梢物流赛道。奥迪中国研发副总裁Ivo Muth认为,关于空间智能与世界模型,未来最核心的变化在提升驾驶安全之外,还会体现在情境感知与乘坐舒适层面。
所有文章未经授权禁止转载、摘编、复制或建立镜像,违规转载法律必究。
举报邮箱:1002263188@qq.com