使用单一非自回归变换器生成掩盖音频

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

MAGNeT是一种生成音频的遮蔽生成序列建模方法,通过非自回归变换器预测遮蔽令牌跨度,并在推断过程中逐步构建输出序列。再评分方法和混合版本提高了生成音频的质量和速度。实证评估表明,MAGNeT与评估基线相当,但速度快7倍。消融研究和分析阐明了每个组成部分的重要性,并指出了自回归和非自回归建模之间的权衡。

🎯

关键要点

  • MAGNeT是一种遮蔽生成序列建模方法,直接操作多个音频令牌流。
  • MAGNeT由单阶段的非自回归变换器组成,训练过程中预测遮蔽令牌跨度,推断过程中逐步构建输出序列。
  • 引入新的再评分方法,利用外部预训练模型对MAGNeT的预测进行再评分和排序。
  • 探索MAGNeT的混合版本,前几秒使用自回归方式生成,其余序列并行解码。
  • MAGNeT在文本转音乐和文本转音频生成任务中表现出高效性,速度比自回归基线快7倍。
  • 通过消融研究和分析,阐明MAGNeT每个组成部分的重要性,并指出自回归与非自回归建模之间的权衡。
➡️

继续阅读