本研究提出了一种音频-视觉实例感知分割方法,利用音频查询的Transformer架构(AQFormer)实现声音对象的有效分割。通过构建AVSBench基准集,提出音视频分割(AVS)问题,并设计了时间交互模块和正则化损失函数。实验结果表明,该方法在多个基准测试中表现优异,推动了音频与视觉语义的结合。
完成下面两步后,将自动完成登录并继续当前操作。