视启未来卡位物理AI入口:创始人张磊详解世界模型的构建与未来
当下,AI产业正从数字交互加速迈向物理智能时代,以世界模型、具身智能为核心的技术体系,正在成为通用人工智能产业化的关键入口。本月,AI初创企业视启未来对外宣布,正式联合百度智能云推出新一代Ego人手3D对齐引擎EgoTwin,补齐物理智能落地的数据短板,推动视觉原生世界模型的商业愿景落地。近日,视启未来创始人张磊博士在接受专访时表示,围绕企业战略布局、差异化技术路线与行业未来趋势,深度拆解其对世界模型赛道的核心判断与长期愿景。
核心判断:世界模型是物理智能核心基础设施
在专访中,张磊分享了其对行业演进的核心判断,AI产业的进化趋势,是从机器“被动感知”向主动“预判推演”的本质跨越。大语言模型已搭建起成熟的数字世界智能底座,但物理世界具备环境不可重置、试错成本高、动态约束复杂等独特属性,传统模仿学习、在线真机试错的模式,难以适配真实、复杂的物理场景。对此,他给出明确结论:世界模型将成为物理AI实现自主学习、自主决策的核心基础设施。
在他看来,真正的物理智能不止于即时感知、即时输出动作,核心在于具备因果推演与未来预判能力。智能体只有能够提前预演动作后果、推演场景动态变化,才能形成稳定、连续的决策闭环。而世界模型的核心价值,正是让AI从海量真实交互数据中,学习“动作—状态—结果”的内在因果关联,通过内部虚拟预演完成经验沉淀,让强化学习实现高效规模化迭代,这也是物理智能从实验室走向产业落地的核心前提。
差异化创新:以“物体-动作”为核心的隐空间模型
针对当前世界模型赛道多元并存的技术路线,张磊在对话中明确笃定,隐空间世界模型(LatentWorldModel)是落地物理通用智能的最优路径。他分析指出,传统像素级世界模型过度执着于视觉画面的精准还原,极易受到纹理、光照、冗余背景信息的干扰,无法有效捕捉真实物理世界的动力学规律与因果逻辑,存在学习效率低、场景泛化性弱的固有缺陷。
相较之下,隐空间模型可通过高维信息压缩,剥离大量无效像素细节,将模型学习重心聚焦于世界状态的动态演化规律,研发核心从“精准还原画面”转变为“理解世界变化逻辑”,更适配物理AI持续学习、跨场景泛化迭代的核心需求。
同时,张磊也客观指出了传统隐空间方案的行业共性短板:多数隐空间表征仅完成基础数据压缩,并不具备物体认知与场景理解能力,无法精准区分物体关联关系、空间变化与主动交互动因,难以学习底层物理规则,最终导致模型落地实用性大幅受限。
基于对行业痛点的深度洞察,视启未来走出了一条差异化创新路径:以“物体-动作”为核心的隐空间世界模型。依托企业多年积淀的2D检测、图像分割、3D表征与语义理解核心能力,视启未来将成熟的物体理解能力深度融入隐空间表征学习,让模型先建立“物体构成、空间位置、语义属性”的结构化世界认知,再迭代学习动作驱动下的物理演化与状态转移逻辑,有效破解了传统黑盒模型难以学习真实物理规律的行业难题。
定义三大准则:可商用的世界模型标准
结合长期技术研发与落地实践,张磊在专访中总结出可落地、可泛化、可商用的物理世界模型三大核心特质:Object-Centric(以物体为中心)、Action-Aligned(跨本体动作对齐)、Causality-Driven(因果驱动)。
张磊解读称,以物体为中心是技术基础,可让模型跳出繁杂像素细节的干扰,精准捕捉稳定、可泛化的通用物理规律;跨本体动作对齐是产业化落地关键,能够统一人手、机械臂、多类机器人的动作表征体系,高效复用海量交互数据,大幅降低机器人场景适配成本;因果驱动是技术核心内核,让模型精准建模动作与场景状态变化的因果关系,深度适配强化学习范式,支撑物理智能体持续自主迭代、进化升级。
技术人才双壁垒:筑牢长期迭代底座
据了解,视启未来的技术突破,源于其长期深耕视觉领域的深厚积淀。公司源自IDEA研究院,持续迭代DINO、GroundingDINO、DINO-X等行业标杆技术,构建起从“看见物体”到“理解物体”的完整技术能力栈,为视觉原生世界模型的研发、迭代与落地筑牢坚实的技术根基。
人才层面,视启未来搭建了一支兼具学术高度、工程实力与产业思维的顶尖年轻化团队。公司聘请张钹院士、沈向洋院士担任科学顾问,精准把控技术研发方向;核心成员均来自清华大学、微软、腾讯等顶尖高校与头部科技企业,兼具前沿学术研究、智能驾驶工程化与AI产业化落地经验。,企业持续吸纳机器人运控、强化学习领域高端人才,形成了支撑世界模型长期攻坚、持续迭代的强劲人才势能。
痛点切入:EgoTwin补齐物理AI人手数据短板
张磊表示,深耕视觉原生世界模型、攻坚物理AI核心技术,是视启未来长期坚守的核心战略,而EgoTwin的落地,是企业技术闭环走向产业化的关键一步。当前具身智能规模化发展普遍面临显著数据瓶颈:真实人手交互数据稀缺、跨本体动作对齐难度大、真机调试成本高、迭代效率低,长期制约着具身智能的训练优化与场景落地。
依托与百度智能云的技术协同,EgoTwin实现了人手3D对齐领域的关键技术突破,可精准还原人手的空间位置与动作交互细节,高效完成第一视角数据与机器人状态空间的统一对齐。相较传统真机遥操、UMI开发模式,EgoTwin大幅提升物理交互数据的规模化拓展效率,为物理AI商业化落地提供坚实的数据支撑。
行业未来研判:世界模型重构物理AI产业生态
对于行业未来格局,张磊给出了清晰且坚定的预判:世界模型将成为物理AI的底层基础设施。对标成熟的数字世界生态,大语言模型已承担底层操作系统角色,全面赋能各类数字智能体创新落地;而在物理世界,世界模型将依托算力、机器人本体的硬件底座,搭建全新的核心系统层,让各类物理智能体具备自主学习、独立决策、持续进化的能力,全面重构具身智能与机器人产业生态。
谈及企业长期愿景,张磊坦言,以“物体-动作”为核心的隐空间世界模型研发难度极高,但却是物理AI规模化落地的唯一正确路径。未来,视启未来将持续攻坚世界模型核心技术,稳固物理AI赛道卡位,加速推动具身智能从技术研发走向大规模产业落地,持续引领物理智能时代的技术演进。
(注:此文属于央广网登载的商业信息,文章内容不代表本网观点,仅供参考。)
所有文章未经授权禁止转载、摘编、复制或建立镜像,违规转载法律必究。
举报邮箱:1002263188@qq.com