小红花·文摘

该研究提出了一种轻量级且稳定的零-shot文本转语音合成系统，解决了对大规模模型和训练数据的依赖。通过新颖的架构和双阶段自我蒸馏框架，有效解耦语言内容与说话者特征，实验结果表明该系统在零-shot任务中表现优越，计算效率更高。