Meta AI 发布 Omnilingual ASR:一套支持1600 多种语言的开源语音识别模型

Meta AI 发布 Omnilingual ASR:一套支持1600 多种语言的开源语音识别模型

💡 原文中文,约3100字,阅读约需8分钟。
📝

内容提要

Meta AI 发布了 Omnilingual ASR,这是一个开源语音识别系统,支持1600多种语言,并能通过少量示例扩展到新语言。该系统基于大规模的 wav2vec 2.0 编码器,具备高效的零样本学习能力,78% 的语言字符错误率低于 10%。

🎯

关键要点

  • Meta AI 发布了 Omnilingual ASR,这是一个开源语音识别系统,支持1600多种语言。
  • 该系统能够通过少量示例扩展到新语言,无需重新训练模型。
  • Omnilingual ASR 使用名为 AllASR 的综合语料库,包含120,710小时的带标签语音和转录文本,涵盖1690种语言。
  • 全语言自动语音识别语料库包含348种语言的3350小时语音数据,数据通过实地调研收集。
  • wav2vec 2.0 编码器在大型未标注语音语料库上进行自监督预训练,包含约430万小时的未标注音频。
  • Omnilingual ASR 提供三种主要模型家族,分别为 SSL编码器、CTC ASR模型和LLM ASR模型。
  • LLM ASR模型支持可选语言条件设置,能够处理多种语言的语音到文本映射。
  • Omnilingual ASR 通过上下文示例训练的零样本模式扩展了 LLM ASR 模型,支持超过1600种语言。
  • 在1600多种语言中,78%的语言字符错误率低于10%。
  • Omnilingual ASR 是一个可扩展的多语言 ASR 框架,结合了多种模型和零样本学习能力。

延伸问答

Omnilingual ASR 支持多少种语言?

Omnilingual ASR 支持超过 1600 种语言。

Omnilingual ASR 如何扩展到新语言?

该系统通过少量示例扩展到新语言,无需重新训练模型。

Omnilingual ASR 使用了什么样的语料库?

它使用名为 AllASR 的综合语料库,包含 120,710 小时的带标签语音和转录文本,涵盖 1690 种语言。

Omnilingual ASR 的字符错误率如何?

在支持的 1600 多种语言中,78% 的语言字符错误率低于 10%。

Omnilingual ASR 的主要模型家族有哪些?

主要模型家族包括 SSL 编码器、CTC ASR 模型和 LLM ASR 模型。

Omnilingual ASR 如何处理零样本学习?

它通过上下文示例训练的零样本模式扩展 LLM ASR 模型,支持超过 1600 种语言。

➡️

继续阅读