小红花·文摘

本文提出了一种基于扩散的概率端到端模型，用于生成原始语音波形。该模型可以实现无限语音时长的合成，并保持高保真度和时间连贯性。相较于其他神经语音生成系统，该模型具有更高的合成质量。