💡
原文中文,约1700字,阅读约需4分钟。
📝
内容提要
NVIDIA 开源了 Canary 1B Flash 和 Canary 180M Flash 两个多语言语音识别与翻译模型,支持多种语言,具备高准确率和实时处理能力,采用编码器-解码器架构,适合设备部署,减少对云服务的依赖,推动 AI 研究与创新。
🎯
关键要点
- NVIDIA 开源了 Canary 1B Flash 和 Canary 180M Flash 两个多语言语音识别与翻译模型。
- 这两个模型支持多种语言,包括英语、德语、法语和西班牙语,具备高准确率和实时处理能力。
- 模型采用编码器-解码器架构,适合设备部署,减少对云服务的依赖。
- Canary 1B Flash 模型包含 32 个编码器层和 4 个解码器层,共计 8.83 亿个参数。
- Canary 180M Flash 模型包含 17 个编码器层和 4 个解码器层,共计 1.82 亿个参数。
- Canary 1B Flash 在英语 ASR 任务中的单词错误率为 1.48%,在多语言 ASR 中对德语、西班牙语和法语的 WER 分别为 4.36%、2.69% 和 4.47%。
- Canary 180M Flash 在英语 ASR 任务中的单词错误率为 1.87%,在多语言 ASR 中对德语、西班牙语和法语的 WER 分别为 4.81%、3.17% 和 4.75%。
- 两种模型支持单词级和片段级时间戳,增强了音频和文本之间的精确对齐。
- 模型体积小巧,适合离线处理,确保更可靠的输出,减少翻译任务中的幻觉。
- NVIDIA 的开源版本鼓励社区进行商业利用和进一步开发,推动 AI 研究与创新。
❓
延伸问答
NVIDIA 开源的 Canary 模型有哪些特点?
Canary 1B Flash 和 Canary 180M Flash 模型支持多种语言,具备高准确率和实时处理能力,采用编码器-解码器架构,适合设备部署。
Canary 1B Flash 和 Canary 180M Flash 的参数数量分别是多少?
Canary 1B Flash 模型有 8.83 亿个参数,Canary 180M Flash 模型有 1.82 亿个参数。
这两个模型支持哪些语言?
这两个模型支持英语、德语、法语和西班牙语等多种语言。
Canary 1B Flash 在英语 ASR 任务中的单词错误率是多少?
Canary 1B Flash 在英语 ASR 任务中的单词错误率为 1.48%。
Canary 模型如何减少对云服务的依赖?
Canary 模型体积小巧,适合在设备上部署,从而实现离线处理,减少对云服务的依赖。
NVIDIA 开源 Canary 模型的许可是什么?
NVIDIA 开源的 Canary 模型在宽松的 CC-BY-4.0 许可下发布,可用于商业用途。
➡️