IndicVoices-R:解锁一个巨大的多语言多说话人语音语料库,以扩展印度文本到语音技术

💡 原文中文,约1700字,阅读约需4分钟。
📝

内容提要

本文探讨了多语言自动语音识别(ASR)和文本转语音(TTS)系统在印度语言中的研究进展。研究表明,在低资源环境下,深度神经网络(DNN)技术和自我监督模型显著提高了语音识别的准确性。同时,介绍了多个新数据集的创建及其对模型性能的提升,强调了数据多样性和代表性的重要性。所有研究成果和数据将公开共享,以促进相关领域的发展。

🎯

关键要点

  • 在低资源环境下,使用DNN技术和多任务DNN模型,印度语种的语音识别准确率提升9.66%至27.24%。
  • 创建了IndicSUPERB基准集,促进印度语音语言理解模型的发展,证明自我监督模型在语言识别任务中的优势。
  • Shrutilipi数据集包含12种印度语言的6,400小时语音和4.95M句子,提升了Wav2Vec和Conformer模型的准确性。
  • 研究评估了多种声学模型和语音合成器,发现联合训练男性和女性说话者的TTS模型表现最佳。
  • Mega-TTS系统基于方谱训练20k小时语音数据,实现高质量的文本到语音生成。
  • BASE TTS模型是最大的TTS模型,使用100K小时公共领域语音数据训练,取得最佳语音自然度。
  • INDICVOICES数据集涵盖145个地区和22种语言,提供标准化的数据收集协议和质量控制机制。
  • 构建了IndicASR模型,支持印度宪法第八版中列出的22种语言,所有研究数据和工具将公开共享。
  • GigaSpeech 2是为低资源语言设计的大规模语音识别语料库,显著降低了词错误率。
  • LAHAJA基准评估印地语ASR系统在多口音下的表现,发现多语言训练模型优于现有模型,特别是在命名实体和专业术语方面。

延伸问答

IndicVoices-R项目的主要目标是什么?

IndicVoices-R项目旨在创建一个多语言多说话人的语音语料库,以支持印度的文本到语音技术发展。

在低资源环境下,DNN技术如何提升语音识别准确率?

在低资源环境下,使用DNN技术和多任务DNN模型,印度语种的语音识别准确率提升了9.66%至27.24%。

Shrutilipi数据集的特点是什么?

Shrutilipi数据集包含12种印度语言的6,400小时语音和4.95M句子,具有代表性和多样性,能提升模型准确性。

Mega-TTS系统的创新之处在哪里?

Mega-TTS系统基于方谱训练20k小时语音数据,实现了高质量的文本到语音生成,具有零样本生成能力。

INDICVOICES数据集的覆盖范围如何?

INDICVOICES数据集涵盖145个地区和22种语言,包含来自16237名发言人的7348小时自然和自发的语音。

GigaSpeech 2语料库的优势是什么?

GigaSpeech 2为低资源语言设计,显著降低了词错误率,并且不依赖于配对的语音和文本数据,具有广泛适用性。

➡️

继续阅读