DiffAR: 去噪扩散自回归模型用于原始语音波形生成

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种基于扩散的概率端到端模型,用于生成原始语音波形。该模型可以实现无限语音时长的合成,并保持高保真度和时间连贯性。相较于其他神经语音生成系统,该模型具有更高的合成质量。

🎯

关键要点

  • 提出了一种基于扩散的概率端到端模型,用于生成原始语音波形。

  • 该模型通过自回归的方式顺序生成重叠帧。

  • 可以实现无限语音时长的合成,并保持高保真度和时间连贯性。

  • 通过直接处理波形,模型能够创建局部声学行为。

  • 模型是随机的,生成略有差异的波形变体。

  • 实验结果表明,该模型相较于其他最先进的神经语音生成系统具有更高的合成质量。

➡️

继续阅读