实时互动网 ·

Meta AI 发布 Omnilingual ASR：一套支持1600 多种语言的开源语音识别模型

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

Meta AI 发布了 Omnilingual ASR，这是一个开源语音识别系统，支持1600多种语言，并能通过少量示例扩展到新语言。该系统基于大规模的 wav2vec 2.0 编码器，具备高效的零样本学习能力，78% 的语言字符错误率低于 10%。

🎯

关键要点

Meta AI 发布了 Omnilingual ASR，这是一个开源语音识别系统，支持1600多种语言。
该系统能够通过少量示例扩展到新语言，无需重新训练模型。
Omnilingual ASR 使用名为 AllASR 的综合语料库，包含120,710小时的带标签语音和转录文本，涵盖1690种语言。
全语言自动语音识别语料库包含348种语言的3350小时语音数据，数据通过实地调研收集。
wav2vec 2.0 编码器在大型未标注语音语料库上进行自监督预训练，包含约430万小时的未标注音频。
Omnilingual ASR 提供三种主要模型家族，分别为 SSL编码器、CTC ASR模型和LLM ASR模型。
LLM ASR模型支持可选语言条件设置，能够处理多种语言的语音到文本映射。
Omnilingual ASR 通过上下文示例训练的零样本模式扩展了 LLM ASR 模型，支持超过1600种语言。
在1600多种语言中，78%的语言字符错误率低于10%。
Omnilingual ASR 是一个可扩展的多语言 ASR 框架，结合了多种模型和零样本学习能力。

🔎

延伸解读

多语言支持的意义

Omnilingual ASR 支持超过 1600 种语言，意味着它能够服务于全球更多的用户，尤其是那些使用小语种的地区。这种广泛的语言覆盖能够促进不同文化间的交流，推动全球化进程。

零样本学习的优势

该系统的零样本学习能力使其能够通过少量示例快速适应新语言，降低了对大量标注数据的依赖。这对于资源匮乏的语言尤其重要，能够加速这些语言的语音识别技术发展。

数据效率的挑战

尽管 Omnilingual ASR 在多语言支持上表现出色，但仍有许多语言缺乏足够的转录数据。这可能限制其在某些语言上的识别准确性，用户在使用时需注意这一点。

与其他系统的比较

Omnilingual ASR 在字符错误率方面表现优于许多现有的多语言系统，尤其是在资源有限的环境中。这表明其在技术实现上的优势，值得关注其在实际应用中的表现。

❓

延伸问答

Omnilingual ASR 支持多少种语言？

Omnilingual ASR 支持超过 1600 种语言。

Omnilingual ASR 如何扩展到新语言？

该系统通过少量示例扩展到新语言，无需重新训练模型。

Omnilingual ASR 使用了什么样的语料库？

它使用名为 AllASR 的综合语料库，包含 120,710 小时的带标签语音和转录文本，涵盖 1690 种语言。

Omnilingual ASR 的字符错误率如何？

在支持的 1600 多种语言中，78% 的语言字符错误率低于 10%。

Omnilingual ASR 的主要模型家族有哪些？

主要模型家族包括 SSL 编码器、CTC ASR 模型和 LLM ASR 模型。

Omnilingual ASR 如何处理零样本学习？

它通过上下文示例训练的零样本模式扩展 LLM ASR 模型，支持超过 1600 种语言。

🏷️