本研究提出了一种名为参考音频 - 视觉分割(Ref-AVS)任务的新任务,旨在通过多模态提示对对象进行分割。通过构建第一个Ref-AVS基准和提出新方法,实验证明了该方法在精确分割对象方面的有效性。
完成下面两步后,将自动完成登录并继续当前操作。