BriefGPT - AI 论文速递 ·

IndicVoices-R：解锁一个巨大的多语言多说话人语音语料库，以扩展印度文本到语音技术

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

本文探讨了多语言自动语音识别（ASR）和文本转语音（TTS）系统在印度语言中的研究进展。研究表明，在低资源环境下，深度神经网络（DNN）技术和自我监督模型显著提高了语音识别的准确性。同时，介绍了多个新数据集的创建及其对模型性能的提升，强调了数据多样性和代表性的重要性。所有研究成果和数据将公开共享，以促进相关领域的发展。

🎯

关键要点

在低资源环境下，使用DNN技术和多任务DNN模型，印度语种的语音识别准确率提升9.66%至27.24%。
创建了IndicSUPERB基准集，促进印度语音语言理解模型的发展，证明自我监督模型在语言识别任务中的优势。
Shrutilipi数据集包含12种印度语言的6,400小时语音和4.95M句子，提升了Wav2Vec和Conformer模型的准确性。
研究评估了多种声学模型和语音合成器，发现联合训练男性和女性说话者的TTS模型表现最佳。
Mega-TTS系统基于方谱训练20k小时语音数据，实现高质量的文本到语音生成。
BASE TTS模型是最大的TTS模型，使用100K小时公共领域语音数据训练，取得最佳语音自然度。
INDICVOICES数据集涵盖145个地区和22种语言，提供标准化的数据收集协议和质量控制机制。
构建了IndicASR模型，支持印度宪法第八版中列出的22种语言，所有研究数据和工具将公开共享。
GigaSpeech 2是为低资源语言设计的大规模语音识别语料库，显著降低了词错误率。
LAHAJA基准评估印地语ASR系统在多口音下的表现，发现多语言训练模型优于现有模型，特别是在命名实体和专业术语方面。

❓

延伸问答

IndicVoices-R项目的主要目标是什么？

IndicVoices-R项目旨在创建一个多语言多说话人的语音语料库，以支持印度的文本到语音技术发展。

在低资源环境下，DNN技术如何提升语音识别准确率？

在低资源环境下，使用DNN技术和多任务DNN模型，印度语种的语音识别准确率提升了9.66%至27.24%。

Shrutilipi数据集的特点是什么？

Shrutilipi数据集包含12种印度语言的6,400小时语音和4.95M句子，具有代表性和多样性，能提升模型准确性。

Mega-TTS系统的创新之处在哪里？

Mega-TTS系统基于方谱训练20k小时语音数据，实现了高质量的文本到语音生成，具有零样本生成能力。

INDICVOICES数据集的覆盖范围如何？

INDICVOICES数据集涵盖145个地区和22种语言，包含来自16237名发言人的7348小时自然和自发的语音。

GigaSpeech 2语料库的优势是什么？

GigaSpeech 2为低资源语言设计，显著降低了词错误率，并且不依赖于配对的语音和文本数据，具有广泛适用性。

🏷️