本文探讨了音频-视觉分割(AVS)技术,提出了ST-BAVA模块和AV-SAM框架等多种模型和方法,旨在实现音频与视觉的像素级关联。这些方法在音频-视觉分割任务中表现优异,尤其在复杂数据集上取得了显著的性能提升。
完成下面两步后,将自动完成登录并继续当前操作。