FMSD-TTS: Few-Shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for Generating U-Tsang, Amdo, and Kham Speech Datasets
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出FMSD-TTS框架,针对藏语低资源问题,通过少量音频和方言标签生成方言语音,提升了方言表现力和说话人相似性。
🎯
关键要点
-
本研究提出FMSD-TTS框架,解决藏语低资源问题。
-
藏语的三大方言乌藏、安多和卡姆缺乏平行语音语料。
-
FMSD-TTS是一个少样本、多说话人、多方言的文本到语音框架。
-
通过有限的参考音频和显式方言标签生成方言语音。
-
显著提升了方言表现力和说话人相似性。
-
推动了藏语音数据集的生成。
➡️