DiTTo-TTS:高效可扩展的零样本文本到语音系统基于扩散 Transformer
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究使用大规模扩散模型进行无领域特定建模的语音合成,通过跨注意机制和预测语音表示总长度来解决文本-语音对齐问题,并在语音的潜在空间中结合语义引导进行提升。实验证明该模型具有与最先进的TTS模型相媲美的零-shot性能。
🎯
关键要点
- 该研究使用大规模扩散模型进行无领域特定建模的语音合成。
- 通过跨注意机制和对语音表示总长度的预测来解决文本-语音对齐问题。
- 在语音的潜在空间中结合语义引导进行提升。
- 模型在82K小时的训练数据和790M参数的规模上进行训练。
- 实验证明该模型在自然度、可懂度和说话人相似度等指标上表现优异。
- 该模型简化了训练流程,具有与最先进的TTS模型相媲美的零-shot性能。
➡️