小红花·文摘

本文介绍了基于SAM模型的音频-视觉定位与分割框架AV-SAM，旨在实现音频对象的精确分割。通过建立视觉特征与声音的相关性，提出了音频-视觉实例分割（AVIS）任务及其标准数据集AVISeg，验证了新方法在音频-视觉分割中的有效性。此外，提出了音视频分割（AVS）问题及基准AVSBench，利用时间像素级交互模块提升分割效果，实验结果显示该方法在音频-视觉表示学习中取得了显著进展。