将分割任何模型扩展到音频和时间维度进行音频 - 视觉分割

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

通过分析视频帧之间的上下文跨模态关系,提出了融合了空时双向音频-视觉注意力模块的模型,实现了音频-视觉关联的像素级理解。实验结果表明该模型在音频-视觉分割任务中优于其他方法,尤其在多源数据集上获得了8.3%的平均交并比增益。

🎯

关键要点

  • 通过分析视频帧之间的上下文跨模态关系,研究将 Segment Anything Model (SAM) 的能力扩展到音频 - 视觉场景序列。
  • 提出了一个融合了空时双向音频 - 视觉注意力 (ST-BAVA) 模块的模型。
  • 实现了对音频 - 视觉关联的像素级理解。
  • 实验结果表明该模型在音频 - 视觉分割任务中表现优于其他方法。
  • 在具有多个源的数据集上获得了 8.3% 的平均交并比增益。
➡️

继续阅读