小红花·文摘

本研究提出了一种音频-视觉实例感知分割方法，利用音频查询的Transformer架构（AQFormer）实现声音对象的有效分割。通过构建AVSBench基准集，提出音视频分割（AVS）问题，并设计了时间交互模块和正则化损失函数。实验结果表明，该方法在多个基准测试中表现优异，推动了音频与视觉语义的结合。