本研究提出了一种音频-视觉实例感知分割方法,利用音频查询的Transformer架构(AQFormer)实现声音对象的有效分割。通过构建AVSBench基准集,提出音视频分割(AVS)问题,并设计了时间交互模块和正则化损失函数。实验结果表明,该方法在多个基准测试中表现优异,推动了音频与视觉语义的结合。
该文介绍了一种基于音频查询的Transformer架构(AQFormer),建立了音频和视觉模态之间的对象级语义对应关系,并提出了一种基于音频的时间交互模块。实验结果表明,该方法在两个AVS基准测试集上取得了最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。