小红花·文摘

本文提出了一种新的音视频分割（AVS）方法，利用跨模态语义过滤技术，能够准确分割视觉场景中的声音对象。通过构建AVSBench基准集和引入音视频交互模块，实验结果显示该方法在复杂场景中表现优异，尤其在重叠对象分割方面。研究还展示了多种新策略和模型，推动了音频与视觉的有效整合与分割。

BriefGPT - AI 论文速递 ·

该文介绍了一种新的跨模态语义过滤（CMSF）方法，用于解决语音-视觉分割（AVS）中的问题。该方法利用现有的多模态基础模型来准确地关联潜在的音频-掩码对，并在复杂情景中的多个听觉对象上表现优异，特别是在重叠前景对象方面表现困难的情况下，仍能准确地分割重叠的听觉对象。

BriefGPT - AI 论文速递 ·