该文介绍了一种新的跨模态语义过滤(CMSF)方法,用于解决语音-视觉分割(AVS)中的问题。该方法利用现有的多模态基础模型来准确地关联潜在的音频-掩码对,并在复杂情景中的多个听觉对象上表现优异,特别是在重叠前景对象方面表现困难的情况下,仍能准确地分割重叠的听觉对象。
完成下面两步后,将自动完成登录并继续当前操作。