FLEURS-R:用于生成任务的恢复多语言语音语料库

💡 原文中文,约1800字,阅读约需5分钟。
📝

内容提要

本文介绍了多种语音处理技术和语料库的开发,如LibriSpeech、FlauBERT和XLS-R,旨在提升语音翻译和识别性能。研究者们创建了公开的语音训练语料库LibriS2S和GigaSpeech 2,以解决数据不足的问题,并通过自我监督模型和多语言预训练,推动低资源语言的语音技术发展。

🎯

关键要点

  • 使用LibriSpeech增强现有单语语料库,建立大型开放式平行语料库,用于直接语音翻译或其他口语翻译实验。
  • FlauBERT语言模型在大规模法语语料库上训练,表现出色,并提供多个版本和统一评估协议供法语NLP研究使用。
  • XLS-R是基于Wav2vec 2.0的跨语言语音表示学习模型,训练于128种语言的近半百万小时公开语音数据,提升语音处理任务表现。
  • 为解决语音到语音翻译领域缺乏培训数据的问题,创建了公开的LibriS2S语音到语音训练语料库。
  • FLEURS基准包含102种语言的并行语音数据集,旨在推动多语言语音技术应用。
  • 通过自动转录和微调FlauBERT,生成新模型FlauBERT-Oral,评估其在口语理解等任务中的性能。
  • 探讨自动语音识别中的多语言不平衡性,采用自我监督模型和Conformer架构改善性能。
  • 提出自我监督的多语种语音模型,专注于非洲语言,使用无标签语音片段提升ASR性能。
  • 构建单一文本转语音合成系统,支持7000种语言,旨在为语言资源有限的社区提供支持。
  • 介绍GigaSpeech 2语音识别语料库,设计用于低资源语言,实验结果显示其高质量和广泛适用性。

延伸问答

LibriSpeech如何增强现有的单语语料库?

LibriSpeech通过建立包含源语言语音与目标语言文本的大型开放式平行语料库,增强现有单语语料库。

FlauBERT模型的训练数据来源是什么?

FlauBERT模型在大规模的异构法语语料库上进行训练。

XLS-R模型的主要特点是什么?

XLS-R是基于Wav2vec 2.0的跨语言语音表示学习模型,训练于128种语言的近半百万小时公开语音数据。

LibriS2S语料库的目的是什么?

LibriS2S语料库旨在解决语音到语音翻译领域缺乏培训数据的问题。

FLEURS基准包含多少种语言的数据集?

FLEURS基准包含102种语言的并行语音数据集。

GigaSpeech 2语音识别语料库的特点是什么?

GigaSpeech 2是为低资源语言设计的大规模、多领域、多语种的语音识别语料库,不依赖于配对的语音和文本数据。

➡️

继续阅读