小红花·文摘

苹果公司与罗切斯特大学联合开发生成式空间音频模型，进一步提升沉浸式体验

实时互动网 ·

ImmerseDiffusion：一种生成空间音频的潜在扩散模型

Apple Machine Learning Research ·

MAGNeT是一种生成音频的遮蔽生成序列建模方法，通过非自回归变换器预测遮蔽令牌跨度，并在推断过程中逐步构建输出序列。再评分方法和混合版本提高了生成音频的质量和速度。实证评估表明，MAGNeT与评估基线相当，但速度快7倍。消融研究和分析阐明了每个组成部分的重要性，并指出了自回归和非自回归建模之间的权衡。

使用单一非自回归变换器生成掩盖音频

BriefGPT - AI 论文速递 ·