💡
原文中文,约3100字,阅读约需8分钟。
📝
内容提要
Meta AI 发布了 Omnilingual ASR,这是一个开源语音识别系统,支持1600多种语言,并能通过少量示例扩展到新语言。该系统基于大规模的 wav2vec 2.0 编码器,具备高效的零样本学习能力,78% 的语言字符错误率低于 10%。
🎯
关键要点
- Meta AI 发布了 Omnilingual ASR,这是一个开源语音识别系统,支持1600多种语言。
- 该系统能够通过少量示例扩展到新语言,无需重新训练模型。
- Omnilingual ASR 使用名为 AllASR 的综合语料库,包含120,710小时的带标签语音和转录文本,涵盖1690种语言。
- 全语言自动语音识别语料库包含348种语言的3350小时语音数据,数据通过实地调研收集。
- wav2vec 2.0 编码器在大型未标注语音语料库上进行自监督预训练,包含约430万小时的未标注音频。
- Omnilingual ASR 提供三种主要模型家族,分别为 SSL编码器、CTC ASR模型和LLM ASR模型。
- LLM ASR模型支持可选语言条件设置,能够处理多种语言的语音到文本映射。
- Omnilingual ASR 通过上下文示例训练的零样本模式扩展了 LLM ASR 模型,支持超过1600种语言。
- 在1600多种语言中,78%的语言字符错误率低于10%。
- Omnilingual ASR 是一个可扩展的多语言 ASR 框架,结合了多种模型和零样本学习能力。
❓
延伸问答
Omnilingual ASR 支持多少种语言?
Omnilingual ASR 支持超过 1600 种语言。
Omnilingual ASR 如何扩展到新语言?
该系统通过少量示例扩展到新语言,无需重新训练模型。
Omnilingual ASR 使用了什么样的语料库?
它使用名为 AllASR 的综合语料库,包含 120,710 小时的带标签语音和转录文本,涵盖 1690 种语言。
Omnilingual ASR 的字符错误率如何?
在支持的 1600 多种语言中,78% 的语言字符错误率低于 10%。
Omnilingual ASR 的主要模型家族有哪些?
主要模型家族包括 SSL 编码器、CTC ASR 模型和 LLM ASR 模型。
Omnilingual ASR 如何处理零样本学习?
它通过上下文示例训练的零样本模式扩展 LLM ASR 模型,支持超过 1600 种语言。
➡️