本文提出了一种新的音视频分割(AVS)方法,利用跨模态语义过滤技术,能够准确分割视觉场景中的声音对象。通过构建AVSBench基准集和引入音视频交互模块,实验结果显示该方法在复杂场景中表现优异,尤其在重叠对象分割方面。研究还展示了多种新策略和模型,推动了音频与视觉的有效整合与分割。
完成下面两步后,将自动完成登录并继续当前操作。