稳定的TTS:通过韵律提示实现稳定的说话人自适应文本到语音合成

📝

内容提要

本研究针对当前说话人自适应文本到语音(TTS)合成方法在目标语音样本数量和质量上存在的高敏感性问题,提出了一个名为Stable-TTS的新框架。该框架通过利用高质量的预训练数据集中少量样本的韵律一致性,有效捕捉目标说话人的音色,显著提升了合成能力,尤其在样本稀缺与噪音较多的情况下表现出色。

🏷️

标签

➡️

继续阅读