本文介绍了基于SAM模型的音频-视觉定位与分割框架AV-SAM,旨在实现音频对象的精确分割。通过建立视觉特征与声音的相关性,提出了音频-视觉实例分割(AVIS)任务及其标准数据集AVISeg,验证了新方法在音频-视觉分割中的有效性。此外,提出了音视频分割(AVS)问题及基准AVSBench,利用时间像素级交互模块提升分割效果,实验结果显示该方法在音频-视觉表示学习中取得了显著进展。
完成下面两步后,将自动完成登录并继续当前操作。