小红花·文摘

本研究提出了一种音频-视觉实例感知分割方法，利用音频查询的Transformer架构（AQFormer）实现声音对象的有效分割。通过构建AVSBench基准集，提出音视频分割（AVS）问题，并设计了时间交互模块和正则化损失函数。实验结果表明，该方法在多个基准测试中表现优异，推动了音频与视觉语义的结合。

文本语义是否可以减轻声音目标分割偏好？

BriefGPT - AI 论文速递 ·

该文介绍了一种基于音频查询的Transformer架构（AQFormer），建立了音频和视觉模态之间的对象级语义对应关系，并提出了一种基于音频的时间交互模块。实验结果表明，该方法在两个AVS基准测试集上取得了最先进的性能。

通过音频查询来发现声音对象用于音频视觉分割

BriefGPT - AI 论文速递 ·