DiffAR: 去噪扩散自回归模型用于原始语音波形生成
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种基于扩散的概率端到端模型,用于生成原始语音波形。该模型可以实现无限语音时长的合成,并保持高保真度和时间连贯性。相较于其他神经语音生成系统,该模型具有更高的合成质量。
🎯
关键要点
-
提出了一种基于扩散的概率端到端模型,用于生成原始语音波形。
-
该模型通过自回归的方式顺序生成重叠帧。
-
可以实现无限语音时长的合成,并保持高保真度和时间连贯性。
-
通过直接处理波形,模型能够创建局部声学行为。
-
模型是随机的,生成略有差异的波形变体。
-
实验结果表明,该模型相较于其他最先进的神经语音生成系统具有更高的合成质量。
➡️