Matcha-TTS:具有条件流匹配的快速 TTS 架构

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

Matcha-TTS是一种新的编码器-解码器架构,用于快速TTS声学建模。它使用最优传输条件流匹配进行训练,生成基于ODE的解码器,能够在较少的合成步骤中输出高质量音频。该方法是概率的、非自回归的,并且能够在没有外部对齐的情况下学习说话。与预训练基线模型相比,Matcha-TTS系统具有最小的内存占用量,并在听力测试中获得最高的主观评分。

🎯

关键要点

  • Matcha-TTS是一种新的编码器-解码器架构,用于快速TTS声学建模。
  • 该系统使用最优传输条件流匹配(OT-CFM)进行训练。
  • Matcha-TTS生成基于ODE的解码器,能够在较少的合成步骤中输出高质量音频。
  • 该方法是概率的、非自回归的,能够在没有外部对齐的情况下学习说话。
  • 与预训练基线模型相比,Matcha-TTS系统具有最小的内存占用量。
  • Matcha-TTS在长篇讲话中与最快模型的速度相媲美,并在听力测试中获得最高的主观评分。
➡️

继续阅读