FMSD-TTS: Few-Shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for Generating U-Tsang, Amdo, and Kham Speech Datasets

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出FMSD-TTS框架,针对藏语低资源问题,通过少量音频和方言标签生成方言语音,提升了方言表现力和说话人相似性。

🎯

关键要点

  • 本研究提出FMSD-TTS框架,解决藏语低资源问题。

  • 藏语的三大方言乌藏、安多和卡姆缺乏平行语音语料。

  • FMSD-TTS是一个少样本、多说话人、多方言的文本到语音框架。

  • 通过有限的参考音频和显式方言标签生成方言语音。

  • 显著提升了方言表现力和说话人相似性。

  • 推动了藏语音数据集的生成。

➡️

继续阅读