Matcha-TTS是一种新的编码器-解码器架构,用于快速TTS声学建模。它使用最优传输条件流匹配进行训练,生成基于ODE的解码器,能够在较少的合成步骤中输出高质量音频。该方法是概率的、非自回归的,并且能够在没有外部对齐的情况下学习说话。与预训练基线模型相比,Matcha-TTS系统具有最小的内存占用量,并在听力测试中获得最高的主观评分。
完成下面两步后,将自动完成登录并继续当前操作。