小红花·文摘

Matcha-TTS是一种新的编码器-解码器架构，用于快速TTS声学建模。它使用最优传输条件流匹配进行训练，生成基于ODE的解码器，能够在较少的合成步骤中输出高质量音频。该方法是概率的、非自回归的，并且能够在没有外部对齐的情况下学习说话。与预训练基线模型相比，Matcha-TTS系统具有最小的内存占用量，并在听力测试中获得最高的主观评分。