BriefGPT - AI 论文速递 ·

FLEURS-R：用于生成任务的恢复多语言语音语料库

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

本文介绍了多种语音处理技术和语料库的开发，如LibriSpeech、FlauBERT和XLS-R，旨在提升语音翻译和识别性能。研究者们创建了公开的语音训练语料库LibriS2S和GigaSpeech 2，以解决数据不足的问题，并通过自我监督模型和多语言预训练，推动低资源语言的语音技术发展。

🎯

关键要点

使用LibriSpeech增强现有单语语料库，建立大型开放式平行语料库，用于直接语音翻译或其他口语翻译实验。
FlauBERT语言模型在大规模法语语料库上训练，表现出色，并提供多个版本和统一评估协议供法语NLP研究使用。
XLS-R是基于Wav2vec 2.0的跨语言语音表示学习模型，训练于128种语言的近半百万小时公开语音数据，提升语音处理任务表现。
为解决语音到语音翻译领域缺乏培训数据的问题，创建了公开的LibriS2S语音到语音训练语料库。
FLEURS基准包含102种语言的并行语音数据集，旨在推动多语言语音技术应用。
通过自动转录和微调FlauBERT，生成新模型FlauBERT-Oral，评估其在口语理解等任务中的性能。
探讨自动语音识别中的多语言不平衡性，采用自我监督模型和Conformer架构改善性能。
提出自我监督的多语种语音模型，专注于非洲语言，使用无标签语音片段提升ASR性能。
构建单一文本转语音合成系统，支持7000种语言，旨在为语言资源有限的社区提供支持。
介绍GigaSpeech 2语音识别语料库，设计用于低资源语言，实验结果显示其高质量和广泛适用性。

❓

延伸问答

LibriSpeech如何增强现有的单语语料库？

LibriSpeech通过建立包含源语言语音与目标语言文本的大型开放式平行语料库，增强现有单语语料库。

FlauBERT模型的训练数据来源是什么？

FlauBERT模型在大规模的异构法语语料库上进行训练。

XLS-R模型的主要特点是什么？

XLS-R是基于Wav2vec 2.0的跨语言语音表示学习模型，训练于128种语言的近半百万小时公开语音数据。

LibriS2S语料库的目的是什么？

LibriS2S语料库旨在解决语音到语音翻译领域缺乏培训数据的问题。

FLEURS基准包含多少种语言的数据集？

FLEURS基准包含102种语言的并行语音数据集。

GigaSpeech 2语音识别语料库的特点是什么？

GigaSpeech 2是为低资源语言设计的大规模、多领域、多语种的语音识别语料库，不依赖于配对的语音和文本数据。

🏷️

标签

r 低资源语言自我监督模型语料库语音处理语音翻译

➡️

继续阅读

缓解 TTS 的重复与漏读：用注意力引导消除语音合成中的稳定性幻觉
近年来，基于大语言模型的语音合成技术快速发展。在普通文本上，模型已经能够稳定生成自然度很高、音色也足够相似的语音。然而，一旦遇到复杂生僻词、排比句或连续重...
Robo-ValueRL——面向离线到在线RL的可靠价值估计：同时捕捉全局任务进度和局部动作偏好，先离线预训练，后在线提升(即在线残差策略自适应)
本文提出Robo-ValueRL框架，旨在通过可靠的价值函数提升离线到在线强化学习在机器人操作任务中的性能。该框架包含三个关键组件：历史条件化价值估计器、...
AI语音代理正在改变现代企业的客户沟通方式
AI 语音代理（AI Voice Agent）代表着商业沟通领域的一项重大进步。通过自动化日常交互、提供即时响应、持续运行并支持智能决策，它们能够帮助企业...
Bayer’s Sai Jasti on driving productivity in R&D with data science and AI
Sai Jasti, Bayer’s senior vice president and head of data science and AI, on ...
LoHoSearch 开源后，搜索智能体评测该往真实任务靠一靠了
美团开源 LoHoSearch，把搜索智能体评测从刷高分拉回到复杂任务和证据链上。对工程团队来说，重点不是模型会不会搜索，而是它在真实查询、外部依赖、成本...
Lima v2.2: Windows guests and TPM 2.0 emulation
Following macOS and FreeBSD guests in v2.1, Lima v2.2 takes the next big step...