VoiceLDM:具有环境上下文的文本转语音
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
VoiceLDM是一种基于潜在扩散模型的文本到音频模型,能够生成逼真的音频,并在语音智力测试集上表现出色。它还探索了文本到语音和零样本文本到音频的能力。
🎯
关键要点
- VoiceLDM 是一种基于潜在扩散模型的文本到音频模型。
- VoiceLDM 能够生成与输入条件对齐的逼真音频。
- 在语音智力测试集上,VoiceLDM 的表现超过了参考音频。
- VoiceLDM 探索了文本到语音的能力。
- VoiceLDM 还探索了零样本文本到音频的能力。
➡️