本文提出了一种新的音频-视觉分割(AVS)策略,并构建了AVSBench基准数据集,利用音频语义指导视觉分割。研究表明,该方法有效提升了分割精度,并在多个实验中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。