量子位 ·

阿里发布Qwen3.5-Omni，多模态能力超越Gemini-3.1 Pro

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

阿里发布的Qwen3.5-Omni超越Gemini-3.1 Pro，成为全球最强全模态大模型。该模型支持113种语言，具备音视频理解与实时交互能力，能够生成复杂产品代码，提升视频处理效率，降低企业内容管理成本。

🎯

关键要点

阿里发布Qwen3.5-Omni，成为全球最强全模态大模型，超越Gemini-3.1 Pro。
该模型支持113种语言，具备音视频理解与实时交互能力。
Qwen3.5-Omni能够生成复杂产品代码，提升视频处理效率，降低企业内容管理成本。
模型在215项任务中取得SOTA，尤其在音视频理解、跨模态推理和Agent方面表现突出。
支持多种语言的语音识别和生成，增强实时交互体验，能够理解用户意图。
Vibe Coding能力使用户通过口述需求生成复杂产品原型界面。
新模型可自动完成视频章节切片与时间戳标注，大幅降低视频后期处理时间。
普通用户可免费体验Qwen Chat，开发者和企业可通过阿里云百炼平台调用该模型。

❓

延伸问答

Qwen3.5-Omni与Gemini-3.1 Pro相比有哪些优势？

Qwen3.5-Omni在音视频理解、实时交互能力等215项任务中取得SOTA，超越Gemini-3.1 Pro，成为全球最强全模态大模型。

Qwen3.5-Omni支持多少种语言？

Qwen3.5-Omni支持113种语言及方言的语音识别和36种语言及方言的语音生成。

Vibe Coding能力是什么？

Vibe Coding能力允许用户通过口述需求生成复杂产品原型界面，实现“动动嘴即可编程”。

Qwen3.5-Omni如何降低企业内容管理成本？

该模型能够自动完成视频章节切片与时间戳标注，大幅缩短视频后期处理时间，从而降低企业内容管理成本。

普通用户如何体验Qwen3.5-Omni？

普通用户可以前往Qwen Chat免费体验Qwen3.5-Omni。

Qwen3.5-Omni在实时交互方面有什么特点？

Qwen3.5-Omni能够高情商地理解用户对话意图，准确区分有效回应和随口附和，提供更自然的交互体验。

🏷️

继续阅读

Roblox如何利用人工智能在100毫秒内翻译16种语言
构建自定义翻译模型需要全面管理，包括训练、评估和安全集成。Roblox选择自建模型以实现特定领域的准确性和低延迟，而大多数公司应使用现成的翻译API。
谷歌地图简化了350多款Android Auto电动车的电池预测和行程规划
谷歌地图将AI驱动的电动车充电功能扩展至350多款车型。用户输入电动车信息和目的地后，可以获得充电建议、预计电量和到达时间。该功能结合AI与能量模型，分析...
Okta首席执行官在人工智能代理身份上押下重注
到2026年，软件开发将主要集中在大脑与数据库的接口调节上。企业倾向于直接与数据库交互以获取洞察，而消费者则可能更偏好传统搜索，反映出对AI的不同需求和习惯。
我们在亚马逊春季大促销中找到的最佳优惠（截至目前）
谷歌Pixel 10现售价549美元（优惠250美元），为今年最佳价格。相比Pixel 10A，Pixel 10配备更先进的相机系统、120Hz显示屏，支...
Harness Engineering Skill：使用 Entrix 技能开始你的代码熵治理
Entrix是一种新工具，旨在解决代码熵治理问题。它将分散的质量规则整合为可执行和可视化的结构，帮助团队在开发过程中有效管理代码质量。通过可视化界面，团队...
不断演变的可能性期望
文章讨论了人工智能的迅速发展及其对用户需求的影响。Kent Walker强调技术应以用户为中心，提供个性化助手服务，确保用户掌控数据隐私。通过与用户沟通，...