openFuyao分论坛大咖云集,分享AI多样化算力释放
[北京,2026 年 05 月 23 日] 面向开发者一年一度的技术盛典 —— 鲲鹏昇腾开发者大会 2026(KADC 2026)在北京中关村国际创新中心圆满结束。大会期间,openFuyao 多样化算力集群软件开源社区成功举办专题分论坛,汇聚社区行业用户、核心开发者及生态伙伴,共同分享社区最新技术演进成果与落地实践案例;并围绕 AI 原生架构创新方向组织 Panel 研讨,为开发者提供技术思路与实践启示,以加速产业发展,繁荣集群软件生态。会场座无虚席,直播间同样气氛高涨,近千名开发者云端共聚、互动频频。
openFyao 社区进展及未来演进
论坛伊始,胡昊主席分享社区从 2025 年 KADC 提出的 5 大调度能力发展至 20+ 创新能力,在算力使能、调度增强和场景化加速等方向突破,成果落地十余个行业 40+ 项目,6 家商业发行版伙伴已实现商业化。与 Mooncake 社区及某互联网公司合作新一代 V3 架构(Cache Tier V3),部分能力已集成至 openFuyao InferNex AI 推理加速套件中,显著提升生产性能,TTFT 下降 40%,端到端延迟下降 30%。此外,积极拥抱灵衢下一代计算架构,推出 URMA 通信、内存池化、拓扑感知调度和容器热迁移等新特性,释放硬件高速互联能力。
接下来,社区继续深耕新模型加速调优、超节点架构下的文件语义抽象、多模态能力支持、DRA 动态资源分配等技术方向,布局 Agent 沙箱和智能运维两大新赛道,持续释放 AI Native 集群软件价值。
Aether:面向大规模 AI 原生工作负载的高可用弹性调度框架
分享大规模 AI 原生工作负载的弹性调度技术实践,京东联合 openFuyao 共创 Aether 高可用弹性调度框架,从触发条件、执行策略、调度粒度和响应速度四个维度构建弹性能力,通过 Brain 全局决策、Driver 运行态感知、Executor 进程级执行与故障隔离,实现作业资源动态规划、弹性伸缩和故障自愈,并与 KubeRay、Kubernetes 等云原生体系融合,接入京东零售九数 AI 平台统一调度训练、推理等任务。落地后,有效训练时间占比提升至 97%,批量推理端到端处理时间缩短 10%,资源成本降低 30%,PD 分离服务端到端效率提升 5%。
移动云超大规模集群实践
围绕万卡级超节点智算基础设施案例,分享移动云联合 openFuyao 社区基于鲲鹏 + 昇腾超节点底座构建超大规模 Kubernetes 发行版实践,通过 APIServer 多实例 / IPVS 负载均衡、APF 流控、Informer 预加载等方式优化提升控制面承载能力;同时引入三层拓扑感知调度、逻辑超节点、自动故障感知隔离和断点续训等机制,打通数据导入、预取、训练、Checkpoint、模型导出的全链路流程。最终实现 openFuyao 在客户现网 2 万卡超节点集群中的稳定落地,提升任务调度与资源利用效率,支撑训练任务分钟级恢复和超大规模算力基础设施持续运营。
智算容器在分布式推理场景的实践
天翼云通过全域智算容器方案,将算力、模型、AI 应用作为基础设施“一等公民”,构建统一算力纳管、AI 网关接入、镜像与模型分发加速、KVCache 感知路由和全链路可观测能力,实现云上云下、多云多地域资源统一调度与一致运维体验。实践中,IDC 集群可实现小时级交付,百 GB 级镜像下载从十几分钟优化到约 1 分钟,模型扩容等待时间缩短 99% 以上;KVCache 感知路由使平均时延降低 36%、TTFT 提升 50%,整体提升了推理服务的部署效率、响应性能和故障定位能力。
灵雀云基于 openFuyao 的海外落地实践
灵雀云全栈云原生平台 ACP 与 openFuyao 深度适配,构建企业级 AI 原生基础设施发行版:通过 Agent 理解业务意图并转化为策略,经 MCP / CLI 下发到基础设施;依托 openFuyao 的多样化算力调度、在离线混部、NPU Operator、AI InferNex 推理加速等能力,实现通算与智算融合管理;同时以策略即代码、权限边界和审计链增强确定性安全治理。该方案兼具 ACP 金融级稳定性与 openFuyao 智算调度能力,面向香港、东南亚、非洲等地区的银行、能源、医疗等行业形成一体化落地实践,帮助企业整合异构算力、操作系统、容器集群调度、AI 服务与安全治理,降低 AI 原生基础设施建设和出海交付门槛。
AI 原生时代开源基础设施
当前 CNCF 作为全球主导的开源基础设施底座,正全面拥抱 AI Native 时代,围绕训练(如 PyTorch)、推理和 Agent 三大支柱演进。其中推理需求高速增长,正在成为驱动云原生工作负载的新锚点,而专用化模型相比通用大模型在成本、性能和硬件适配方面更具优势,CNCF 将持续扩展云原生生态,推动 AI 推理从“大规模训练超算”走向广泛的“企业级推理”。未来,期待 CNCF 与 openFuyao 社区围绕通算、智算及 AI Native 基础设施深化合作,共同推动关键技术创新与开源生态繁荣。
AI 原生技术参考架构与核心能力
面对 AI Native 概念复杂、边界不清的问题,议题以“关注点分离(SoC)”和“第一性原理”为方法论起点:通过分层架构拆解 AI 系统这一“系统的系统”,明确功能边界与演进路径;同时回归 AI 原生的本质特征,提炼其不可或缺的关键要素。基于此,AI Native 整体架构可从 AI 基础设施、模型与数据使能、智能体协同 / 调度、Agentic 应用四个层次进行系统化拆解。在关键能力建设上,重点关注声明式智能契约、专注型智能体协同、动态任务图和语义检查点四类要素,为构建可扩展、可治理的 AI 原生系统提供参考。面向未来泛终端等带来的百倍级流量增长,呼吁产业围绕超通量高可靠 Agentic Core、智能体平台与基础设施、6G AI 原生核心网标准生态等方向开展协同共建,共同探索电信网络架构从 CNF 向 ANF 演进的新路径。
Panel:AI 原生基础设施关键技术挑战
本场圆桌围绕 AI 原生时代基础设施演进、Agentic 工作负载调度与推理架构优化展开深入讨论。嘉宾认为,Kubernetes 仍具备成熟生态和声明式 API 等核心优势,但面对 GPU / NPU / TPU 等异构算力、卡间互联、拓扑感知、亚秒级调度等新需求,需要从传统容器负载管理进一步演进。进入 Agent 时代后,系统瓶颈不再只在 GPU / NPU 推理侧,CPU 工具调用、任务执行、记忆管理、安全审计与多智能体协同同样关键,亟需打通从 Agent 工作流到 CPU / GPU / NPU 资源调度的信息链路。针对推理架构,嘉宾指出 KV Cache 命中率、数据搬移效率和内存 / 网络带宽将成为影响成本与性能的重要因素,未来应以更开放、可感知、可调度的推理基础设施支撑低时延、高质量、低成本的智能体应用落地。
openFuyao 社区这一年持续突破,多项技术成果落地应用,持续提升产业性能!由衷感谢社区全体成员的贡献。接下来将继续与广大开发者携手并肩,演进多样化算力集群软件生态,让每一份算力都转化为生产力。下一年新征程满怀期许,静待更多前沿创新在社区蓬勃迸发,以技术赋能千行百业,共同推进全球 AI 原生新时代璀璨发展!
所有文章未经授权禁止转载、摘编、复制或建立镜像,违规转载法律必究。
举报邮箱:1002263188@qq.com