本文提出了音视频分割(AVS)问题,并构建了AVSBench基准,提供声音对象的像素级注释。通过时间像素级音视频交互模块和正则化损失函数,提升了视觉分割效果。研究表明,该方法有效建立了音频与视觉语义之间的联系,取得了良好的实验结果。
完成下面两步后,将自动完成登录并继续当前操作。