NVIDIA AI 开源 Canary 1B 和 180M Flash:多语言语音识别和翻译模型

NVIDIA AI 开源 Canary 1B 和 180M Flash:多语言语音识别和翻译模型

💡 原文中文,约1700字,阅读约需4分钟。
📝

内容提要

NVIDIA 开源了 Canary 1B Flash 和 Canary 180M Flash 两个多语言语音识别与翻译模型,支持多种语言,具备高准确率和实时处理能力,采用编码器-解码器架构,适合设备部署,减少对云服务的依赖,推动 AI 研究与创新。

🎯

关键要点

  • NVIDIA 开源了 Canary 1B Flash 和 Canary 180M Flash 两个多语言语音识别与翻译模型。
  • 这两个模型支持多种语言,包括英语、德语、法语和西班牙语,具备高准确率和实时处理能力。
  • 模型采用编码器-解码器架构,适合设备部署,减少对云服务的依赖。
  • Canary 1B Flash 模型包含 32 个编码器层和 4 个解码器层,共计 8.83 亿个参数。
  • Canary 180M Flash 模型包含 17 个编码器层和 4 个解码器层,共计 1.82 亿个参数。
  • Canary 1B Flash 在英语 ASR 任务中的单词错误率为 1.48%,在多语言 ASR 中对德语、西班牙语和法语的 WER 分别为 4.36%、2.69% 和 4.47%。
  • Canary 180M Flash 在英语 ASR 任务中的单词错误率为 1.87%,在多语言 ASR 中对德语、西班牙语和法语的 WER 分别为 4.81%、3.17% 和 4.75%。
  • 两种模型支持单词级和片段级时间戳,增强了音频和文本之间的精确对齐。
  • 模型体积小巧,适合离线处理,确保更可靠的输出,减少翻译任务中的幻觉。
  • NVIDIA 的开源版本鼓励社区进行商业利用和进一步开发,推动 AI 研究与创新。

延伸问答

NVIDIA 开源的 Canary 模型有哪些特点?

Canary 1B Flash 和 Canary 180M Flash 模型支持多种语言,具备高准确率和实时处理能力,采用编码器-解码器架构,适合设备部署。

Canary 1B Flash 和 Canary 180M Flash 的参数数量分别是多少?

Canary 1B Flash 模型有 8.83 亿个参数,Canary 180M Flash 模型有 1.82 亿个参数。

这两个模型支持哪些语言?

这两个模型支持英语、德语、法语和西班牙语等多种语言。

Canary 1B Flash 在英语 ASR 任务中的单词错误率是多少?

Canary 1B Flash 在英语 ASR 任务中的单词错误率为 1.48%。

Canary 模型如何减少对云服务的依赖?

Canary 模型体积小巧,适合在设备上部署,从而实现离线处理,减少对云服务的依赖。

NVIDIA 开源 Canary 模型的许可是什么?

NVIDIA 开源的 Canary 模型在宽松的 CC-BY-4.0 许可下发布,可用于商业用途。

➡️

继续阅读