E3 TTS:简易端到端扩散基于文本到语音技术

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

Guided-TTS 2是一种无文本数据的生成模型,可自适应语音合成,适应各种声音,包括非人类角色的语音,且在多发言人数据集上表现出色。

🎯

关键要点

  • Guided-TTS 2是一种基于扩散的生成模型,能够实现高质量的自适应语音合成。
  • 该模型结合了以发言者为条件的扩散模型和音素分类器,适应文本到语音的转换。
  • 通过无分类器指导的方法,模型在大规模未转录数据集上训练,并在目标发言者的参考语音上微调。
  • 只需40秒即可适应不同的语音,表现出与高质量单发言人TTS基准相当的语音质量和发言人相似性。
  • 在多发言人数据集上,Guided-TTS 2在零样本自适应设置下超越自适应TTS基线。
  • 该模型能够适应各种声音,包括非人类角色的语音,如《指环王》中的咕噜姆。
➡️

继续阅读