国产开源框架杀到全球第一梯队京东JoyAI-Echo引领长视频革命

沄森™2026-06-08

6月3日，京东宣布开源JoyAI-Echo长音视频生成框架。这一框架解决了角色一致性、音色控制和视频生成速度等三大行业痛点，实现了长视频的高效高质量生成。JoyAI-Echo还引入了“边聊边改”模式，将视频创作从静态生成转变为动态协作

6月3日，京东宣布开源JoyAI-Echo长音视频生成框架。这一框架解决了角色一致性、音色控制和视频生成速度等三大行业痛点，实现了长视频的高效高质量生成。JoyAI-Echo还引入了“边聊边改”模式，将视频创作从静态生成转变为动态协作。

国产开源框架杀到全球第一梯队

JoyAI-Echo在各类视频创作、数字人直播、品牌营销、教育和游戏内容生产等领域具有巨大应用潜力，标志着京东在长视频生成领域取得了重大突破，进入全球领先行列。

在AI视频领域，尽管十几秒短视频的生成质量已趋于成熟，但分钟级长视频的生成仍面临诸多挑战。例如，同一角色在不同镜头中外观不一致，说话人的音色变化无常，以及生成速度过慢等问题。这些问题使得AI长视频难以真正投入实际应用。JoyAI-Echo通过四项技术创新解决了这些难题：

跨模态音视频记忆库确保角色在多镜头生成过程中保持一致的外观和音色。长达5分钟的视频中，角色身份、视觉形象和声音音色都能高度一致，避免了“同一个人演着演着变成另一个人”的尴尬情况。

记忆驱动后训练流程结合SFT、跨模态RLHF和DMD技术，大幅提升了生成质量和推理速度。特别是DMD技术带来了约7.5倍的速度提升，使长视频生成时间大大缩短。

智能“导演助理”Director Agent支持对话式编辑，用户可以通过自然语言表达需求，系统会自动拆分剧本、角色、场景和镜头，并根据用户反馈进行局部修改，无需重新生成整个视频。

轻量化实时超分模块支持两档分辨率提升，确保高清输出且不卡顿。即使在流式延迟的约束下，也能保持稳定的高清表现。

所有文章未经授权禁止转载、摘编、复制或建立镜像，违规转载法律必究。

任素汐提名白玉兰奖最佳女主角与多位实力派同台竞争