小红花·文摘

本文介绍了一种基于预训练变分自编码器的扩散模型训练技术，应用于音频源分离和音乐生成。该方法在音频-视觉分离任务中表现优异，能够生成高质量音轨，并有效实现多轨音频中的音源分离，具有广泛应用潜力。

BriefGPT - AI 论文速递 ·

本研究提出了一种基于双流网络的无监督算法，用于在视觉场景中定位声源，并通过半监督学习修正误差，增强算法的可靠性。研究还介绍了神经声学场（NAFs）和SoundSpaces 2.0平台，以提高声源定位和音频-视觉分离的效果。实验结果表明，该方法在性能上优于现有技术。

BriefGPT - AI 论文速递 ·