💡 原文中文,约3100字,阅读约需8分钟。
📝

内容提要

Meta AI 发布了 Omnilingual ASR,这是一个开源语音识别系统,支持1600多种语言,并能通过少量示例扩展到新语言。该系统基于大规模的 wav2vec 2.0 编码器,具备高效的零样本学习能力,78% 的语言字符错误率低于 10%。

🎯

关键要点

  • Meta AI 发布了 Omnilingual ASR,这是一个开源语音识别系统,支持1600多种语言。
  • 该系统能够通过少量示例扩展到新语言,无需重新训练模型。
  • Omnilingual ASR 使用名为 AllASR 的综合语料库,包含120,710小时的带标签语音和转录文本,涵盖1690种语言。
  • 全语言自动语音识别语料库包含348种语言的3350小时语音数据,数据通过实地调研收集。
  • wav2vec 2.0 编码器在大型未标注语音语料库上进行自监督预训练,包含约430万小时的未标注音频。
  • Omnilingual ASR 提供三种主要模型家族,分别为 SSL编码器、CTC ASR模型和LLM ASR模型。
  • LLM ASR模型支持可选语言条件设置,能够处理多种语言的语音到文本映射。
  • Omnilingual ASR 通过上下文示例训练的零样本模式扩展了 LLM ASR 模型,支持超过1600种语言。
  • 在1600多种语言中,78%的语言字符错误率低于10%。
  • Omnilingual ASR 是一个可扩展的多语言 ASR 框架,结合了多种模型和零样本学习能力。
➡️

继续阅读