本文提出了一种协作混合传播框架(Co-Prop),旨在解决音视频分割中音频线索与分割结果时间不协调的问题。该方法通过音频边界锚定和逐帧音频插入传播,显著提升了多个数据集上的性能,并能与现有方法无缝集成。
本文提出了一种新的音视频分割(AVS)策略,构建了经济实惠的基准数据集AVSBench,并引入了音频感知变压器和时间像素级交互模块,显著提高了音频与视觉的分割精度。实验结果显示,这些方法在AVS性能上取得了突破,缩小了音频与视觉模态之间的差距。
本文提出了音视频分割(AVS)问题,并构建了AVSBench基准,提供声音对象的像素级注释。通过时间像素级音视频交互模块和正则化损失函数,提升了视觉分割效果。研究表明,该方法有效建立了音频与视觉语义之间的联系,取得了良好的实验结果。
本文提出了一种新的音视频分割(AVS)方法,利用跨模态语义过滤技术,能够准确分割视觉场景中的声音对象。通过构建AVSBench基准集和引入音视频交互模块,实验结果显示该方法在复杂场景中表现优异,尤其在重叠对象分割方面。研究还展示了多种新策略和模型,推动了音频与视觉的有效整合与分割。
完成下面两步后,将自动完成登录并继续当前操作。