量子位 ·

千问语音识别模型Qwen3-ASR开源！饶舌RAP歌曲也能轻松识别

Q: Qwen3-ASR模型的处理速度如何？

该模型能在10秒内处理5小时的音频。

💡 原文中文，约1300字，阅读约需3分钟。

📝

内容提要

阿里开源的Qwen3-ASR语音识别模型支持52种语言，能快速准确识别饶舌歌曲，处理5小时音频仅需10秒，适合AI硬件部署，开发者可免费下载使用。

🎯

关键要点

阿里开源的Qwen3-ASR语音识别模型支持52种语言与方言。
Qwen3-ASR在多项评测中获得开源最佳（SOTA），性能接近顶级闭源模型。
该模型能快速准确识别饶舌歌曲，处理5小时音频仅需10秒。
Qwen3-ASR系列包括1.7B和0.6B两个版本，适合AI硬件部署。
1.7B模型在复杂文本和噪声环境下表现优异，准确率高。
0.6B模型在性能与效率上实现最佳平衡，支持高并发服务。
Qwen3-ASR支持多达30个语种和22个中文口音的识别。
阿里还开源了语音强制对齐模型Qwen3-ForcedAligner-0.6B。
阿里已开源超过400个模型，千问模型下载量突破10亿，成为全球第一开源模型家族。

🔎

延伸解读

多语言支持的优势

Qwen3-ASR模型支持52种语言和方言，特别适合多元文化环境中的应用。这种广泛的语言支持使得开发者能够在全球范围内推广其应用，满足不同用户的需求，尤其是在多语言国家或地区。

模型选择与应用场景

Qwen3-ASR提供1.7B和0.6B两个版本，前者适合复杂文本和噪声环境，后者则在性能与效率上表现优异。开发者应根据具体应用场景选择合适的模型，以实现最佳的语音识别效果。

开源模型的社区影响

阿里开源的Qwen3-ASR及其相关模型不仅推动了技术创新，还促进了AI社区的合作与发展。开发者可以利用这些模型进行二次开发，推动更多应用的落地，形成良性循环。

❓

延伸问答

Qwen3-ASR语音识别模型支持哪些语言？

Qwen3-ASR支持52种语言与方言。

Qwen3-ASR模型的处理速度如何？

该模型能在10秒内处理5小时的音频。

Qwen3-ASR的不同版本有什么区别？

Qwen3-ASR有1.7B和0.6B两个版本，1.7B在复杂文本和噪声环境下表现优异，0.6B在性能与效率上实现最佳平衡。

Qwen3-ASR在饶舌歌曲识别方面的表现如何？

Qwen3-ASR能够快速准确地识别饶舌歌曲，适应语速超快的场景。

阿里开源的Qwen3-ASR模型有哪些应用场景？

该模型适合AI硬件部署，支持离线与在线推理，满足大规模部署和实时服务需求。

Qwen3-ASR的开源背景是什么？

阿里已开源超过400个模型，千问模型下载量突破10亿，成为全球第一开源模型家族。

🏷️