E3 TTS:简易端到端扩散基于文本到语音技术
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
Guided-TTS 2是一种无文本数据的生成模型,可自适应语音合成,适应各种声音,包括非人类角色的语音,且在多发言人数据集上表现出色。
🎯
关键要点
- Guided-TTS 2是一种基于扩散的生成模型,能够实现高质量的自适应语音合成。
- 该模型结合了以发言者为条件的扩散模型和音素分类器,适应文本到语音的转换。
- 通过无分类器指导的方法,模型在大规模未转录数据集上训练,并在目标发言者的参考语音上微调。
- 只需40秒即可适应不同的语音,表现出与高质量单发言人TTS基准相当的语音质量和发言人相似性。
- 在多发言人数据集上,Guided-TTS 2在零样本自适应设置下超越自适应TTS基线。
- 该模型能够适应各种声音,包括非人类角色的语音,如《指环王》中的咕噜姆。
➡️