小红花·文摘

本文提出了一种协作混合传播框架（Co-Prop），旨在解决音视频分割中音频线索与分割结果时间不协调的问题。该方法通过音频边界锚定和逐帧音频插入传播，显著提升了多个数据集上的性能，并能与现有方法无缝集成。

BriefGPT - AI 论文速递 ·

本文提出了一种新的音视频分割（AVS）策略，构建了经济实惠的基准数据集AVSBench，并引入了音频感知变压器和时间像素级交互模块，显著提高了音频与视觉的分割精度。实验结果显示，这些方法在AVS性能上取得了突破，缩小了音频与视觉模态之间的差距。

BriefGPT - AI 论文速递 ·

本文提出了音视频分割（AVS）问题，并构建了AVSBench基准，提供声音对象的像素级注释。通过时间像素级音视频交互模块和正则化损失函数，提升了视觉分割效果。研究表明，该方法有效建立了音频与视觉语义之间的联系，取得了良好的实验结果。

BriefGPT - AI 论文速递 ·

本文提出了一种新的音视频分割（AVS）方法，利用跨模态语义过滤技术，能够准确分割视觉场景中的声音对象。通过构建AVSBench基准集和引入音视频交互模块，实验结果显示该方法在复杂场景中表现优异，尤其在重叠对象分割方面。研究还展示了多种新策略和模型，推动了音频与视觉的有效整合与分割。

BriefGPT - AI 论文速递 ·