视启未来卡位物理AI入口：创始人张磊详解世界模型的构建与未来

沄森™2026-05-29

　　当下，AI产业正从数字交互加速迈向物理智能时代，以世界模型、具身智能为核心的技术体系，正在成为通用人工智能产业化的关键入口。本月，AI初创企业视启未来对外宣布，正式联合百度智能云推出新一代Ego人手3D对齐引擎EgoTwin，补齐物理智

　　当下，AI产业正从数字交互加速迈向物理智能时代，以世界模型、具身智能为核心的技术体系，正在成为通用人工智能产业化的关键入口。本月，AI初创企业视启未来对外宣布，正式联合百度智能云推出新一代Ego人手3D对齐引擎EgoTwin，补齐物理智能落地的数据短板，推动视觉原生世界模型的商业愿景落地。近日，视启未来创始人张磊博士在接受专访时表示，围绕企业战略布局、差异化技术路线与行业未来趋势，深度拆解其对世界模型赛道的核心判断与长期愿景。

　　核心判断：世界模型是物理智能核心基础设施

　　在专访中，张磊分享了其对行业演进的核心判断，AI产业的进化趋势，是从机器“被动感知”向主动“预判推演”的本质跨越。大语言模型已搭建起成熟的数字世界智能底座，但物理世界具备环境不可重置、试错成本高、动态约束复杂等独特属性，传统模仿学习、在线真机试错的模式，难以适配真实、复杂的物理场景。对此，他给出明确结论：世界模型将成为物理AI实现自主学习、自主决策的核心基础设施。

　　在他看来，真正的物理智能不止于即时感知、即时输出动作，核心在于具备因果推演与未来预判能力。智能体只有能够提前预演动作后果、推演场景动态变化，才能形成稳定、连续的决策闭环。而世界模型的核心价值，正是让AI从海量真实交互数据中，学习“动作—状态—结果”的内在因果关联，通过内部虚拟预演完成经验沉淀，让强化学习实现高效规模化迭代，这也是物理智能从实验室走向产业落地的核心前提。

　　差异化创新：以“物体-动作”为核心的隐空间模型

　　针对当前世界模型赛道多元并存的技术路线，张磊在对话中明确笃定，隐空间世界模型(LatentWorldModel)是落地物理通用智能的最优路径。他分析指出，传统像素级世界模型过度执着于视觉画面的精准还原，极易受到纹理、光照、冗余背景信息的干扰，无法有效捕捉真实物理世界的动力学规律与因果逻辑，存在学习效率低、场景泛化性弱的固有缺陷。

　　相较之下，隐空间模型可通过高维信息压缩，剥离大量无效像素细节，将模型学习重心聚焦于世界状态的动态演化规律，研发核心从“精准还原画面”转变为“理解世界变化逻辑”，更适配物理AI持续学习、跨场景泛化迭代的核心需求。

　　同时，张磊也客观指出了传统隐空间方案的行业共性短板：多数隐空间表征仅完成基础数据压缩，并不具备物体认知与场景理解能力，无法精准区分物体关联关系、空间变化与主动交互动因，难以学习底层物理规则，最终导致模型落地实用性大幅受限。

　　基于对行业痛点的深度洞察，视启未来走出了一条差异化创新路径：以“物体-动作”为核心的隐空间世界模型。依托企业多年积淀的2D检测、图像分割、3D表征与语义理解核心能力，视启未来将成熟的物体理解能力深度融入隐空间表征学习，让模型先建立“物体构成、空间位置、语义属性”的结构化世界认知，再迭代学习动作驱动下的物理演化与状态转移逻辑，有效破解了传统黑盒模型难以学习真实物理规律的行业难题。

　　定义三大准则：可商用的世界模型标准

　　结合长期技术研发与落地实践，张磊在专访中总结出可落地、可泛化、可商用的物理世界模型三大核心特质：Object-Centric(以物体为中心)、Action-Aligned(跨本体动作对齐)、Causality-Driven(因果驱动)。

　　张磊解读称，以物体为中心是技术基础，可让模型跳出繁杂像素细节的干扰，精准捕捉稳定、可泛化的通用物理规律；跨本体动作对齐是产业化落地关键，能够统一人手、机械臂、多类机器人的动作表征体系，高效复用海量交互数据，大幅降低机器人场景适配成本；因果驱动是技术核心内核，让模型精准建模动作与场景状态变化的因果关系，深度适配强化学习范式，支撑物理智能体持续自主迭代、进化升级。

　　技术人才双壁垒：筑牢长期迭代底座

　　据了解，视启未来的技术突破，源于其长期深耕视觉领域的深厚积淀。公司源自IDEA研究院，持续迭代DINO、GroundingDINO、DINO-X等行业标杆技术，构建起从“看见物体”到“理解物体”的完整技术能力栈，为视觉原生世界模型的研发、迭代与落地筑牢坚实的技术根基。

　　人才层面，视启未来搭建了一支兼具学术高度、工程实力与产业思维的顶尖年轻化团队。公司聘请张钹院士、沈向洋院士担任科学顾问，精准把控技术研发方向；核心成员均来自清华大学、微软、腾讯等顶尖高校与头部科技企业，兼具前沿学术研究、智能驾驶工程化与AI产业化落地经验。，企业持续吸纳机器人运控、强化学习领域高端人才，形成了支撑世界模型长期攻坚、持续迭代的强劲人才势能。

　　痛点切入：EgoTwin补齐物理AI人手数据短板

　　张磊表示，深耕视觉原生世界模型、攻坚物理AI核心技术，是视启未来长期坚守的核心战略，而EgoTwin的落地，是企业技术闭环走向产业化的关键一步。当前具身智能规模化发展普遍面临显著数据瓶颈：真实人手交互数据稀缺、跨本体动作对齐难度大、真机调试成本高、迭代效率低，长期制约着具身智能的训练优化与场景落地。

　　依托与百度智能云的技术协同，EgoTwin实现了人手3D对齐领域的关键技术突破，可精准还原人手的空间位置与动作交互细节，高效完成第一视角数据与机器人状态空间的统一对齐。相较传统真机遥操、UMI开发模式，EgoTwin大幅提升物理交互数据的规模化拓展效率，为物理AI商业化落地提供坚实的数据支撑。

　　行业未来研判：世界模型重构物理AI产业生态

　　对于行业未来格局，张磊给出了清晰且坚定的预判：世界模型将成为物理AI的底层基础设施。对标成熟的数字世界生态，大语言模型已承担底层操作系统角色，全面赋能各类数字智能体创新落地；而在物理世界，世界模型将依托算力、机器人本体的硬件底座，搭建全新的核心系统层，让各类物理智能体具备自主学习、独立决策、持续进化的能力，全面重构具身智能与机器人产业生态。

　　谈及企业长期愿景，张磊坦言，以“物体-动作”为核心的隐空间世界模型研发难度极高，但却是物理AI规模化落地的唯一正确路径。未来，视启未来将持续攻坚世界模型核心技术，稳固物理AI赛道卡位，加速推动具身智能从技术研发走向大规模产业落地，持续引领物理智能时代的技术演进。

　　(注：此文属于央广网登载的商业信息，文章内容不代表本网观点，仅供参考。)

所有文章未经授权禁止转载、摘编、复制或建立镜像，违规转载法律必究。

举报邮箱：1002263188@qq.com

视启未来卡位物理AI入口：创始人张磊详解世界模型的构建与未来

汾西矿业新能源公司：瓦斯压力实现一键稳控

国家能源局：全国累计发电装机容量截至 4 月底为 39.9 亿千瓦，同比增长 14.2%

奥达巴斯3-0大胜托博尔，Zhasulan Amir双响，卡帕奇纳破门

PriceSeek重点提醒：财政部报告印花税大增