VoiceLDM:具有环境上下文的文本转语音

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

VoiceLDM是一种基于潜在扩散模型的文本到音频模型,能够生成逼真的音频,并在语音智力测试集上表现出色。它还探索了文本到语音和零样本文本到音频的能力。

🎯

关键要点

  • VoiceLDM 是一种基于潜在扩散模型的文本到音频模型。
  • VoiceLDM 能够生成与输入条件对齐的逼真音频。
  • 在语音智力测试集上,VoiceLDM 的表现超过了参考音频。
  • VoiceLDM 探索了文本到语音的能力。
  • VoiceLDM 还探索了零样本文本到音频的能力。
➡️

继续阅读