小红花·文摘

该研究使用大规模扩散模型进行无领域特定建模的语音合成，通过跨注意机制和预测语音表示总长度来解决文本-语音对齐问题，并在语音的潜在空间中结合语义引导进行提升。实验证明该模型具有与最先进的TTS模型相媲美的零-shot性能。