量子位 ·

阿里发布Qwen3.5-Omni，多模态能力超越Gemini-3.1 Pro

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

阿里发布的Qwen3.5-Omni超越Gemini-3.1 Pro，成为全球最强全模态大模型。该模型支持113种语言，具备音视频理解与实时交互能力，能够生成复杂产品代码，提升视频处理效率，降低企业内容管理成本。

🎯

关键要点

阿里发布Qwen3.5-Omni，成为全球最强全模态大模型，超越Gemini-3.1 Pro。
该模型支持113种语言，具备音视频理解与实时交互能力。
Qwen3.5-Omni能够生成复杂产品代码，提升视频处理效率，降低企业内容管理成本。
模型在215项任务中取得SOTA，尤其在音视频理解、跨模态推理和Agent方面表现突出。
支持多种语言的语音识别和生成，增强实时交互体验，能够理解用户意图。
Vibe Coding能力使用户通过口述需求生成复杂产品原型界面。
新模型可自动完成视频章节切片与时间戳标注，大幅降低视频后期处理时间。
普通用户可免费体验Qwen Chat，开发者和企业可通过阿里云百炼平台调用该模型。

🔎

延伸解读

全模态大模型的优势

Qwen3.5-Omni在音视频理解和实时交互方面的表现超越了Gemini-3.1 Pro，显示出其在多模态处理上的强大能力。这种技术的进步不仅提升了用户体验，还为企业在内容管理和视频处理上带来了显著的效率提升。

多语言支持的潜力

该模型支持113种语言和方言的语音识别，显示出其在全球化应用中的广泛适用性。这种多语言能力使得Qwen3.5-Omni能够服务于不同地区的用户，增强了其市场竞争力。

Vibe Coding的创新

Qwen3.5-Omni的Vibe Coding能力允许用户通过口述需求生成复杂产品原型，这一创新将编程门槛大幅降低，可能会改变传统开发流程，吸引更多非技术用户参与产品设计。

企业应用的实际价值

新模型在视频后期处理中的应用，能够自动完成章节切片和时间戳标注，大幅缩短处理时间。这对于内容创作者和企业来说，意味着更低的成本和更高的生产效率，具有重要的商业价值。

❓

延伸问答

Qwen3.5-Omni与Gemini-3.1 Pro相比有什么优势？

Qwen3.5-Omni在音视频理解、实时交互能力等215项任务中取得SOTA，超越Gemini-3.1 Pro，成为全球最强全模态大模型。

Qwen3.5-Omni支持多少种语言？

Qwen3.5-Omni支持113种语言和方言的语音识别，以及36种语言的语音生成。

Vibe Coding能力是什么？

Vibe Coding能力允许用户通过口述需求生成复杂产品原型界面，实现音视频编程。

Qwen3.5-Omni如何提高视频处理效率？

该模型可以自动完成视频章节切片与时间戳标注，大幅缩短视频后期处理时间，降低企业内容管理成本。

普通用户如何体验Qwen3.5-Omni？

普通用户可以前往Qwen Chat免费体验Qwen3.5-Omni。

Qwen3.5-Omni的成本如何？

每百万Tokens输入不到0.8元，比Gemini-3.1 Pro的1/10还低。

🏷️