DiTTo-TTS:高效可扩展的零样本文本到语音系统基于扩散 Transformer
原文中文,约300字,阅读约需1分钟。发表于: 。利用大规模扩散模型做无领域特定建模的语音合成,通过跨注意机制和对语音表示总长度的预测来解决文本 - 语音对齐的问题,在语音的潜在空间中结合语义引导进行提升。该模型在 82K 小时的训练数据和 790M 参数的模型规模上进行了训练,实验证明它在自然度、可懂度和说话人相似度等指标上不仅简化了训练流程,而且具有与最先进的 TTS 模型相媲美的零 - shot 性能。
该研究使用大规模扩散模型进行无领域特定建模的语音合成,通过跨注意机制和预测语音表示总长度来解决文本-语音对齐问题,并在语音的潜在空间中结合语义引导进行提升。实验证明该模型具有与最先进的TTS模型相媲美的零-shot性能。