小红花·文摘

本文提出了音视频分割（AVS）问题，并构建了AVSBench基准，提供声音对象的像素级注释。通过时间像素级音视频交互模块和正则化损失函数，提升了视觉分割效果。研究表明，该方法有效建立了音频与视觉语义之间的联系，取得了良好的实验结果。