通用的视听情景感知音频分离中的隐形声音分离

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究提出了OneAVM联合学习框架,可用于音频-视频源定位、分离和识别任务。该框架在多个数据集上证明了有效性,并在音频-视觉源定位、分离和最近邻识别任务之间展现了强大的正向转移。

🎯

关键要点

  • 研究提出了OneAVM联合学习框架。
  • OneAVM框架用于音频-视频源定位、分离和识别任务。
  • 框架包含共享的音频-视频编码器和任务特定的解码器。
  • 训练目标包括音频-视觉对应丢失、视觉源分离和像素空间混合。
  • 在多个数据集上的实验证明了OneAVM的有效性。
  • OneAVM在音频-视觉源定位、分离和最近邻识别任务之间展现了强大的正向转移。
➡️

继续阅读