千问上线Qwen3.5-Omni 具备全模态感知与生成能力

沄森™2026-03-30

　　3月30日，千问宣布上线Qwen3.5-Omni。这是Qwen最新一代全模态大模型，支持文本、图片、音频、音视频理解。结构上，Qwen3.5-Omni的Thinker与Talker均采用Hybrid-Attention MoE架构。Qw

　　3月30日，千问宣布上线Qwen3.5-Omni。这是Qwen最新一代全模态大模型，支持文本、图片、音频、音视频理解。结构上，Qwen3.5-Omni的Thinker与Talker均采用Hybrid-Attention MoE架构。Qwen3.5-Omni系列包含Plus,Flash,Light三种尺寸的Instruct版本，支持256k长上下文，模型支持超过10小时的音频输入及超过400秒的720P(1FPS)音视频输入。模型在海量文本、视觉以及超过1亿小时的音视频数据上进行原生多模态预训练，该模型展现出卓越的全模态感知与生成能力。目前可通过Offline API和Realtime API进行体验。

　　据介绍，千问着重加强了Qwen3.5-Omni的交互能力。对比Qwen3-Omni，Qwen3.5-Omni在长上下文、多语言、音视频理解能力上都有明显提升，能够支持113种语种和方言的语音识别和36种语种和方言的语音生成，同时新增了语义打断、音色克隆、语音控制等实时交互能力，让对话体验更接近真人。配合ARIA技术，语音输出的稳定性和自然度也进一步改善。

　　 Qwen3.5-Omni-Plus在音频/音视频的理解、推理和交互任务上，共取得215项SOTA成绩，涵盖音视频、音频、语音识别、语音翻译等多个方向。其中，通用音频理解、推理、识别、翻译、对话全面超越Gemini-3.1Pro，音视频理解能力总体达到Gemini-3.1Pro水平。同时，视觉和文本能力与同尺寸Qwen3.5模型持平。

所有文章未经授权禁止转载、摘编、复制或建立镜像，违规转载法律必究。

举报邮箱：1002263188@qq.com

千问上线Qwen3.5-Omni 具备全模态感知与生成能力

资产规模稳步攀升梯队分化与区位优势凸显

券商观点|计算机行业周报：阿里、百度官宣涨价，继续重视AIInfra机遇

9400亿车险市场迎变局，北京率先启动智能网联车险

从关键突破到产业赋能：远望谷与中国物联网的信创征程

千问上线Qwen3.5-Omni 具备全模态感知与生成能力

资产规模稳步攀升 梯队分化与区位优势凸显

券商观点|计算机行业周报：阿里、百度官宣涨价，继续重视AIInfra机遇

9400亿车险市场迎变局，北京率先启动智能网联车险

从关键突破到产业赋能：远望谷与中国物联网的信创征程

资产规模稳步攀升梯队分化与区位优势凸显