DART:多语者文本到语音中的口音和说话者表征的分解
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
我们开发了MParrotTTS,一个支持多语言和多说话者的文字转语音模型。通过模块化的自我监督训练,该模型在最少数据下适应新语言,并保持说话者特征。实验显示,在六种语言中,MParrotTTS的语音流畅度和相似度优于现有模型,且仅需少量训练数据。
🎯
关键要点
- MParrotTTS是一个统一的多语言、多说话者的文字转语音合成模型。
- 该模型能够生成高质量的语音,使用自我监督语音表示的模块化训练范式。
- MParrotTTS能够以最少的监督数据适应新语言,并泛化到未见过的语言。
- 模型无需对任何双语或平行例子进行训练,即可跨语言转移语音并保留说话者的特点。
- 在六种语言的实验中,MParrotTTS在语音流畅度和说话者相似度方面优于现有模型。
- 该模型仅需少量的受控训练数据,且可以在指定的URL找到语音样本。
➡️