本文提出了一种新的音视频分割(AVS)策略,构建了经济实惠的基准数据集AVSBench,并引入了音频感知变压器和时间像素级交互模块,显著提高了音频与视觉的分割精度。实验结果显示,这些方法在AVS性能上取得了突破,缩小了音频与视觉模态之间的差距。
完成下面两步后,将自动完成登录并继续当前操作。