DiTTo-TTS:高效可扩展的零样本文本到语音系统基于扩散 Transformer

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究使用大规模扩散模型进行无领域特定建模的语音合成,通过跨注意机制和预测语音表示总长度来解决文本-语音对齐问题,并在语音的潜在空间中结合语义引导进行提升。实验证明该模型具有与最先进的TTS模型相媲美的零-shot性能。

🎯

关键要点

  • 该研究使用大规模扩散模型进行无领域特定建模的语音合成。
  • 通过跨注意机制和对语音表示总长度的预测来解决文本-语音对齐问题。
  • 在语音的潜在空间中结合语义引导进行提升。
  • 模型在82K小时的训练数据和790M参数的规模上进行训练。
  • 实验证明该模型在自然度、可懂度和说话人相似度等指标上表现优异。
  • 该模型简化了训练流程,具有与最先进的TTS模型相媲美的零-shot性能。
➡️

继续阅读