FMSD-TTS: Few-Shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for Generating U-Tsang, Amdo, and Kham Speech Datasets
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出FMSD-TTS框架,针对藏语低资源问题,通过少量音频和方言标签生成方言语音,提升了方言表现力和说话人相似性。
🎯
关键要点
- 本研究提出FMSD-TTS框架,解决藏语低资源问题。
- 藏语的三大方言乌藏、安多和卡姆缺乏平行语音语料。
- FMSD-TTS是一个少样本、多说话人、多方言的文本到语音框架。
- 通过有限的参考音频和显式方言标签生成方言语音。
- 显著提升了方言表现力和说话人相似性。
- 推动了藏语音数据集的生成。
➡️