量子位 ·

7B模型搞定AI视频通话，阿里最新开源炸场，看听说写全模态打通，开发者企业免费商用

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

阿里巴巴发布了开源全模态大模型Qwen2.5-Omni-7B，支持文本、音频、图像和视频的实时交互，性能优于同类模型。该模型轻量化，适合在手机等终端上部署，开发者可免费商用。

🎯

关键要点

阿里巴巴发布开源全模态大模型Qwen2.5-Omni-7B，支持文本、音频、图像和视频的实时交互。
Qwen2.5-Omni-7B性能优于同类模型，适合在手机等终端上部署。
模型轻量化，开发者和企业可免费商用，使用Apache2.0协议开源。
在多模态任务OmniBench评测中，Qwen2.5-Omni表现刷新记录，超越谷歌Gemini-1.5-Pro等模型。
模型具备与人类水平相当的语音合成能力，能够实时识别音视频情绪。
Qwen2.5-Omni采用Thinker-Talker双核架构，支持多模态输入和输出。
模型原生支持视频、图片、语音、文字等多模态输入，提升了交互效率。
阿里与苹果合作，Qwen2.5-Omni具备直接嵌入手机的可行性，吸引众多国产手机品牌接入。
阿里通义千问已开源200多款模型，构建了丰富的大模型生态。
未来将增强模型对语音指令的遵循能力，并提升音视频协同理解能力。

❓

延伸问答

Qwen2.5-Omni-7B模型的主要功能是什么？

Qwen2.5-Omni-7B模型支持文本、音频、图像和视频的实时交互，能够生成文本和自然语音。

Qwen2.5-Omni-7B与其他模型相比有什么优势？

Qwen2.5-Omni-7B在多模态任务中表现优异，超越了谷歌Gemini-1.5-Pro等同类模型，且具备与人类水平相当的语音合成能力。

开发者如何使用Qwen2.5-Omni-7B模型？

开发者可以在魔搭社区或Hugging Face免费下载Qwen2.5-Omni-7B模型进行商用，使用Apache2.0协议开源。

Qwen2.5-Omni-7B的架构特点是什么？

Qwen2.5-Omni-7B采用Thinker-Talker双核架构，支持多模态输入和输出，能够高效处理和理解信息。

Qwen2.5-Omni-7B的应用场景有哪些？

Qwen2.5-Omni-7B可用于智能家居助手、教育辅导、艺术创作等多种场景，提升用户交互体验。

阿里巴巴与哪些品牌合作使用Qwen2.5-Omni-7B？

阿里巴巴与超过90%的国产手机品牌如OPPO、vivo、荣耀等合作，计划将Qwen2.5-Omni-7B嵌入手机中。

🏷️

继续阅读

生数科技认领神秘登顶模型：AI视频公司拿出工业级Demo，跨本体跑通复杂长程任务
生数科技推出的MotuBrain是一款具身智能机器人通用大脑，具备世界模型的预测和行动能力，展现出卓越的物理理解和行动能力。MotuBrain通过统一建模...
LWiAI播客第242期 - ChatGPT图像2.0，Qwen 3.6 Max，Kimi-K2.6
本期播客讨论了最新的AI新闻，包括OpenAI发布的ChatGPT图像2.0模型，生成文本和截图的能力显著提升；阿里巴巴推出Qwen 3.6 Max，转为...
埃隆·马斯克确认xAI使用OpenAI的模型来训练Grok
埃隆·马斯克在加州法庭作证称，他的AI初创公司xAI使用了OpenAI的模型来提升技术。他提到“模型蒸馏”是行业常见做法，允许大型AI模型作为“教师”训练...
生产就绪AI的九项检查清单
文章讨论了将AI原型转变为可靠生产系统的过程，强调构建“AI平台切片”的重要性。平台团队需解决基础设施、安全性和可观察性等问题，以确保AI服务的可靠性和可...
魔法战胜魔法：AI提示词还得AI写
文章探讨了AI提示词的写作，认为人类编写提示词效率低下，AI更擅长此事。人类与AI的交流是跨物种沟通，AI能更好理解自身语言习惯。提示词工程师的角色正在被...
参与2026年Ruby on Rails开发者社区调查
Rails开发者社区正在进行2026年调查，旨在收集开发者的反馈，了解Rails的使用情况、工具、团队工作流程及面临的挑战。调查结果将公开分享，以帮助社区...