巴哈萨和谐:一种全面的巴哈萨文本到语音合成数据集与EnGen-TTS的离散编码模型

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

本研究聚焦于印度尼西亚及其他地区的多种土著语言的语音识别与合成,提出了无监督文本到语音系统和高质量蒙古文TTS数据集等新技术,旨在提升语音合成的自然度与准确性,推动语言保护与复兴。

🎯

关键要点

  • 本研究聚焦于印度尼西亚的多种土著语言的语音识别与合成,包括爪哇语、巽他语、巴厘语和巴塔克语。
  • 提出了一种新的无监督文本到语音(UTTS)框架,支持零样本语音克隆和高自然度的语音合成。
  • 开发了一个高质量的蒙古文开源TTS数据集,包含约8小时的音频记录,推动了蒙古TTS应用的推广。
  • 介绍了Translatotron 3模型,能够在无监督数据集上进行语音到语音翻译,优于传统监督方法。
  • 提出了Mega-TTS系统,实现了零样本文本到语音的高质量生成,基于20k小时的语音数据训练。
  • 开发了VoxHakka系统,针对台湾客家语实现高自然度和准确性的语音合成,助力语言保护与复兴。
  • 提出IndicVoices-R数据集,解决印度语言缺乏高质量手动字幕数据的问题,涵盖22种语言,推动印度TTS技术的发展。

延伸问答

巴哈萨和谐研究的主要目标是什么?

该研究旨在提升印度尼西亚及其他地区多种土著语言的语音识别与合成,推动语言保护与复兴。

无监督文本到语音(UTTS)框架的特点是什么?

UTTS框架支持零样本语音克隆和高自然度的语音合成,利用自监督语音表示学习的先进技术。

蒙古文TTS数据集的贡献是什么?

该数据集是第一个公开可用的蒙古文TTS数据集,推动了蒙古TTS应用在学术界和工业界的推广。

Translatotron 3模型的优势是什么?

Translatotron 3在无监督数据集上进行语音到语音翻译,优于传统监督方法,能够保留非语言信息。

VoxHakka系统的主要成就是什么?

VoxHakka系统针对台湾客家语实现了高自然度和准确性的语音合成,显著优于现有的客家语TTS系统。

IndicVoices-R数据集解决了什么问题?

IndicVoices-R数据集解决了印度语言缺乏高质量手动字幕数据的问题,涵盖22种语言,推动了印度TTS技术的发展。

➡️

继续阅读