在音视场景中引用和分割对象

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了一种名为参考音频 - 视觉分割(Ref-AVS)任务的新任务,旨在通过多模态提示对对象进行分割。通过构建第一个Ref-AVS基准和提出新方法,实验证明了该方法在精确分割对象方面的有效性。

🎯

关键要点

  • 本研究提出了一种新的任务,名为参考音频 - 视觉分割(Ref-AVS)任务。
  • Ref-AVS任务旨在基于多模态提示对对象进行分割。
  • 研究构建了第一个Ref-AVS基准。
  • 提出了一种新方法,充分利用多模态提示提供精确分割引导。
  • 通过与现有方法的实验证明了该方法的有效性。
  • 研究突出了使用多模态提示表达式精确分割对象的能力。
➡️

继续阅读