小红花·文摘

本文提出了一种基于普通微分方程的线性扩散模型（LinDiff），旨在实现快速推理和高采样质量，并通过基于补丁的处理方法减少计算复杂性和实现嘈杂语音的有效全局建模。使用对抗性训练进一步改善样本质量，并在Mel-声谱图上进行了条件语音合成测试。实验结果表明，即使只有一个扩散步骤，该模型也能合成高质量的语音，且合成速度更快，质量与自回归模型相媲美。