欢迎您访问欢迎来到沄森网,沄森智能旗下资讯平台!今天是:2026年06月04日 星期四 农历:丙午(马)年-四月-十九
您现在的位置是:首页 > AI

小鹏集团第三次受邀登台AI顶会CVPR,向全球分享世界模型技术图谱

沄森™2026-06-04
  今日,全球计算机视觉顶级学术会议CVPR2026(The IEEE/CVF Conference on Computer Vision and Pattern Recognition)在美国科罗拉多州丹佛开幕。  作为唯一受邀演讲的中国

  今日,全球计算机视觉顶级学术会议CVPR2026(The IEEE/CVF Conference on Computer Vision and Pattern Recognition)在美国科罗拉多州丹佛开幕。

  作为唯一受邀演讲的中国企业代表,小鹏集团通用智能中心负责人刘先明出席CVPR首届具身智能基座模型部署研讨会(WDFM-EAI)做主题演讲,与特斯拉、英伟达、Waymo等全球同行,以及加州大学、多伦多大学等顶尖高校和研究机构的专家学者同台交流。

  这也是小鹏集团第三次受邀登上这一国际顶级学术舞台。

  作为最具影响力的国际学术会议之一,CVPR长期引领人工智能、自动驾驶、机器人等前沿技术的发展方向,本届大会聚焦TOP级行业议题,首次设立具身智能基座模型部署研讨会,会上刘先明首次披露小鹏世界模型完整技术图谱。小鹏研发团队论文《DrivePTS:A Progressive Learning Framework with Textual and Structural Enhancement for Driving Scene Generation》亦被本届大会收录。

  小鹏通用智能中心负责人刘先明

  在CVPR2026现场介绍小鹏物理AI技术体系

  从技术构想到量产落地

  第二代VLA完成关键跨越

  本次大会上,刘先明以《Building the World Model for Autonomous Driving自动驾驶世界模型的构建》为题发表主题演讲,系统拆解小鹏物理AI技术体系的迭代演进路径,详细解读基座模型从概念验证、技术打磨到全面量产落地的全周期研发与应用历程。

  在2025年CVPR大会上,小鹏首次公开自研基座模型的研发布局。时隔一年,小鹏完成关键技术跨越——基于自研基座模型打造的第二代VLA辅助驾驶系统正式实现量产落地,率先完成从前沿技术预研到商业化规模化应用的闭环落地。凭借远超传统架构模型的安全、舒适、效率表现,第二代VLA改写了很多用户的辅助驾驶体验,推送首月就创下“辅助驾驶里程占比超过50%”的行业里程碑,成为国内辅助驾驶的全新标杆。

  第二代VLA从设计之初便面向L4级自动驾驶而生,可以用同一套软件架构打通L2与L4。近期,搭载第二代VLA的小鹏GX正式发布,以高阶智能重新定义科技旗舰;以小鹏GX为原型车打造的中国首款全栈自研的Robotaxi也已成功量产下线,整车有效算力达到3000TOPS,让L4级自动驾驶能力加速走向现实应用。

  小鹏Robotaxi已量产下线,

  搭载小鹏第二代VLA大模型,可实现L4级自动驾驶能力

  首次披露世界模型完整技术图谱

  深耕物理世界基座模型

  围绕世界模型方向,小鹏逐步构建起完善的技术体系,刘先明在CVPR2026现场首次完整展现了小鹏世界模型的技术图谱。

  在CVPR现场,刘先明进一步介绍了小鹏的物理AI内容,展示小鹏基座模型的另一支柱:世界模型。他说,小鹏集团正在研发具备主动思考、可控生成和长时序推演能力的世界模型。世界模型与第二代VLA不是互相替代或互相竞争的关系,而是通过不同训练信号共同提升模型对物理世界的理解能力和在物理世界的行动能力。小鹏物理世界基座模型,是第二代VLA,也是世界模型。它们本质上在做同一件事:通过不断放大模型规模、数据规模和训练目标的复杂度,训练足够强大的物理世界基座模型。

  “学习人类”和“从世界中学习”

  刘先明介绍,在小鹏的基座模型架构中,第二代VLA主要从人类驾驶行为中学习,将视频流、指令与动作输出进行统一建模,掌握在复杂交通环境中合理行动的能力;世界模型则通过对未来状态和场景演化的预测,学习物理世界的运行规律,并支持可控生成、长时序推演和因果推理。前者让模型学习“如何行动”,后者让模型理解“行动之后世界会如何变化”。

  二者结合,最终目标是构建能够深度理解真实世界并在其中安全行动的物理AI基座模型。

  主动思考、可控生成和长时序推演

  小鹏认为优秀的世界模型必须具备的三大能力:主动思考、可控生成和长时序推演,这是智能的体现,也是世界模型能在自动驾驶领域应用的前提条件。小鹏研发团队近期发表了一系列与世界模型相关的学术论文(X-World、X-Foresight、X-Cache),围绕这几个核心能力拆解小鹏世界模型的研究方法。

   X-World能在给定动作条件下生成符合物理约束的未来视频,同时在持续生成过程中保持良好的可控性与稳定性。X-World现已投入到闭环仿真测试、在线强化学习、数据生成等研发环节。

   X-Foresight在架构上与VLA融为一体,在统一的token空间内联合预测未来的多视角画面与自车动作,为VLA的控车决策提供了核心支撑。

   X-Cache能在基本不牺牲画质的前提下,减少约七成的重复计算,对世界模型的去噪主干实现最高约2.7倍的推理加速。

  此外,小鹏即将发布“X-Mind”的技术报告,解析模型如何“主动思考”,并可视化地呈现驾驶决策背后的中间推理过程。可解释性对于自动驾驶的软件性能调试、用户信任建立以及模型快速迭代都至关重要。

  小鹏物理世界基座模型技术图谱

  持续验证Scaling Law

  小鹏加速物理AI规模化落地

  探索规模法则的上限始终是小鹏团队的追求,过去一两年,研发团队通过提升模型、算力、数据的规模,不断摸高基座模型的性能。目前,小鹏第二代VLA模型拥有数十亿参数量,使用了上亿的视频片段作为训练数据,每版模型的训练量超过4万亿Token。

  小鹏是国内最早建成万卡以上规模智算集群的企业,在截至今年3月的一年间,小鹏集群的单GPU训练效率提升了1010%、单任务训练效率提升了4360%,GPU硬件利用率从40%提升到了90%,达到头部AI公司的标准。

  何小鹏此前表示,“第二代VLA首个版本的成功,验证了通过放大数据和模型参数量带来的能力飞跃,也使我们更加坚信物理世界AI的Scaling Law。”小鹏因此进一步坚定了持续投入物理AI核心技术研发与规模化应用落地的信心。

  随着第二代VLA能力不断提升,其在环境理解、推理决策和行动执行等方面形成的能力体系,正加速向更广泛的具身智能场景延伸。目前,小鹏人形机器人IRON面向量产版本的软硬件研发进展顺利,即将进入软硬件合围阶段,预计年底实现量产、2027年一季度进入小鹏线下门店担任导购。

  物理AI应用正处在从量产落地迈向规模化增长的关键阶段,小鹏正全力推进第二代VLA、图灵AI芯片、Robotaxi和人形机器人几大物理AI应用的量产落地与全球扩张,持续为全球用户创造更大价值。

  附:小鹏世界模型相关论文

所有文章未经授权禁止转载、摘编、复制或建立镜像,违规转载法律必究。

举报邮箱:1002263188@qq.com

相关标签: