小红花·文摘

本文介绍了多种新型文本到语音（TTS）模型，如Diff-TTS、ProDiff和CM-TTS，旨在提高语音合成的速度和质量。这些模型利用扩散技术和优化方法，显著提升生成效率，部分模型在NVIDIA显卡上实现了实时速度的24倍。此外，研究探讨了语音合成中的语义控制和风格表达能力，提出了基于扩散的表达性语音合成（DEX-TTS），在多说话人数据集上表现优异。