FLEURS-R:用于生成任务的恢复多语言语音语料库
💡
原文中文,约1800字,阅读约需5分钟。
📝
内容提要
本文介绍了多种语音处理技术和语料库的开发,如LibriSpeech、FlauBERT和XLS-R,旨在提升语音翻译和识别性能。研究者们创建了公开的语音训练语料库LibriS2S和GigaSpeech 2,以解决数据不足的问题,并通过自我监督模型和多语言预训练,推动低资源语言的语音技术发展。
🎯
关键要点
- 使用LibriSpeech增强现有单语语料库,建立大型开放式平行语料库,用于直接语音翻译或其他口语翻译实验。
- FlauBERT语言模型在大规模法语语料库上训练,表现出色,并提供多个版本和统一评估协议供法语NLP研究使用。
- XLS-R是基于Wav2vec 2.0的跨语言语音表示学习模型,训练于128种语言的近半百万小时公开语音数据,提升语音处理任务表现。
- 为解决语音到语音翻译领域缺乏培训数据的问题,创建了公开的LibriS2S语音到语音训练语料库。
- FLEURS基准包含102种语言的并行语音数据集,旨在推动多语言语音技术应用。
- 通过自动转录和微调FlauBERT,生成新模型FlauBERT-Oral,评估其在口语理解等任务中的性能。
- 探讨自动语音识别中的多语言不平衡性,采用自我监督模型和Conformer架构改善性能。
- 提出自我监督的多语种语音模型,专注于非洲语言,使用无标签语音片段提升ASR性能。
- 构建单一文本转语音合成系统,支持7000种语言,旨在为语言资源有限的社区提供支持。
- 介绍GigaSpeech 2语音识别语料库,设计用于低资源语言,实验结果显示其高质量和广泛适用性。
❓
延伸问答
LibriSpeech如何增强现有的单语语料库?
LibriSpeech通过建立包含源语言语音与目标语言文本的大型开放式平行语料库,增强现有单语语料库。
FlauBERT模型的训练数据来源是什么?
FlauBERT模型在大规模的异构法语语料库上进行训练。
XLS-R模型的主要特点是什么?
XLS-R是基于Wav2vec 2.0的跨语言语音表示学习模型,训练于128种语言的近半百万小时公开语音数据。
LibriS2S语料库的目的是什么?
LibriS2S语料库旨在解决语音到语音翻译领域缺乏培训数据的问题。
FLEURS基准包含多少种语言的数据集?
FLEURS基准包含102种语言的并行语音数据集。
GigaSpeech 2语音识别语料库的特点是什么?
GigaSpeech 2是为低资源语言设计的大规模、多领域、多语种的语音识别语料库,不依赖于配对的语音和文本数据。
➡️