在音视场景中引用和分割对象
原文中文,约300字,阅读约需1分钟。发表于: 。本研究提出了一种新的任务,名为参考音频 - 视觉分割(Ref-AVS)任务,旨在基于包含多模态提示的表达式在视觉领域内对对象进行分割。我们构建了第一个 Ref-AVS 基准,并提出了一种充分利用多模态提示来提供精确分割引导的新方法。通过与相关任务的现有方法进行数量和质量实验证明了我们方法的有效性,突出了其使用多模态提示表达式精确分割对象的能力。
本研究提出了一种名为参考音频 - 视觉分割(Ref-AVS)任务的新任务,旨在通过多模态提示对对象进行分割。通过构建第一个Ref-AVS基准和提出新方法,实验证明了该方法在精确分割对象方面的有效性。