千问语音识别模型Qwen3-ASR开源!饶舌RAP歌曲也能轻松识别
💡
原文中文,约1300字,阅读约需3分钟。
📝
内容提要
阿里开源的Qwen3-ASR语音识别模型支持52种语言,能快速准确识别饶舌歌曲,处理5小时音频仅需10秒,适合AI硬件部署,开发者可免费下载使用。
🎯
关键要点
- 阿里开源的Qwen3-ASR语音识别模型支持52种语言与方言。
- Qwen3-ASR在多项评测中获得开源最佳(SOTA),性能接近顶级闭源模型。
- 该模型能快速准确识别饶舌歌曲,处理5小时音频仅需10秒。
- Qwen3-ASR系列包括1.7B和0.6B两个版本,适合AI硬件部署。
- 1.7B模型在复杂文本和噪声环境下表现优异,准确率高。
- 0.6B模型在性能与效率上实现最佳平衡,支持高并发服务。
- Qwen3-ASR支持多达30个语种和22个中文口音的识别。
- 阿里还开源了语音强制对齐模型Qwen3-ForcedAligner-0.6B。
- 阿里已开源超过400个模型,千问模型下载量突破10亿,成为全球第一开源模型家族。
➡️