该研究使用大规模扩散模型进行无领域特定建模的语音合成,通过跨注意机制和预测语音表示总长度来解决文本-语音对齐问题,并在语音的潜在空间中结合语义引导进行提升。实验证明该模型具有与最先进的TTS模型相媲美的零-shot性能。
完成下面两步后,将自动完成登录并继续当前操作。