小红花·文摘

本文提出了一种新的音视频分割（AVS）方法，利用跨模态语义过滤技术，能够准确分割视觉场景中的声音对象。通过构建AVSBench基准集和引入音视频交互模块，实验结果显示该方法在复杂场景中表现优异，尤其在重叠对象分割方面。研究还展示了多种新策略和模型，推动了音频与视觉的有效整合与分割。