量子位 ·

实测拿215项SOTA的Qwen3.5-Omni：摄像头一开，AI给我现场讲论文、撸代码

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

Qwen3.5-Omni是一款全模态AI，支持视频会议、论文解读和代码生成。在215项SOTA测试中表现优异，其音视频理解能力与Gemini 3.1-Pro相当。新功能如实时语义打断和自然对话提升了用户体验。

🎯

🔎

Qwen3.5-Omni作为全模态AI，能够无缝处理文本、音频、视频等多种输入形式。这种能力使其在视频会议和论文解读中表现出色，用户可以通过摄像头直接与AI互动，提升了工作效率和沟通体验。

在215项SOTA测试中，Qwen3.5-Omni的音视频理解能力与Gemini 3.1-Pro相当，但在音频理解、推理和对话等方面超越了后者。这表明Qwen3.5-Omni在多模态处理能力上有显著优势，值得关注其在实际应用中的表现。

Qwen3.5-Omni引入的实时语义打断功能，使得用户可以在与AI对话时随时提问或打断。这种灵活性在学术论文解读中尤为重要，能够帮助用户更好地理解复杂内容，提升学习效果。

❓

Qwen3.5-Omni是一款全模态AI，支持视频会议、论文解读和代码生成。

Qwen3.5-Omni在215项SOTA测试中表现优异，音视频理解能力与Gemini 3.1-Pro相当。

Qwen3.5-Omni可以在视频通话中根据画面逻辑生成Python代码或前端原型。

Qwen3.5-Omni引入了ARIA技术，改善了语音输出的稳定性和自然度。

Qwen3.5-Omni可以通过摄像头实时解读论文，并支持语义打断功能。

Qwen3.5-Omni采用Thinker-Talker结构，提升了理解和输出效率。

🏷️