小红花·文摘

本文提出了一种新的音频-视觉分割（AVS）策略，并构建了AVSBench基准数据集，利用音频语义指导视觉分割。研究表明，该方法有效提升了分割精度，并在多个实验中表现优异。

开放词汇的音频视觉语义分割

BriefGPT - AI 论文速递 ·

本文讨论了音频-视觉分割（AVS）技术的新方法，包括双向生成框架、音频-视觉解码器和像素级音视频交互模块。这些方法增强了音频与视觉的关联性，提升了分割性能，并在AVS基准测试中表现优异。此外，研究还提出了新的数据集和策略，推动了音频-视觉模型的发展。

音频视觉分割中的偏见揭示与缓解

BriefGPT - AI 论文速递 ·

本研究提出了一种音频-视觉实例感知分割方法，利用音频查询的Transformer架构（AQFormer）实现声音对象的有效分割。通过构建AVSBench基准集，提出音视频分割（AVS）问题，并设计了时间交互模块和正则化损失函数。实验结果表明，该方法在多个基准测试中表现优异，推动了音频与视觉语义的结合。

文本语义是否可以减轻声音目标分割偏好？

BriefGPT - AI 论文速递 ·

本文探讨了音频-视觉分割（AVS）技术，提出了ST-BAVA模块和AV-SAM框架等多种模型和方法，旨在实现音频与视觉的像素级关联。这些方法在音频-视觉分割任务中表现优异，尤其在复杂数据集上取得了显著的性能提升。

SAVE: 音视频分段的简便方法使用分段模型

BriefGPT - AI 论文速递 ·

本文介绍了基于SAM模型的音频-视觉定位与分割框架AV-SAM，旨在实现音频对象的精确分割。通过建立视觉特征与声音的相关性，提出了音频-视觉实例分割（AVIS）任务及其标准数据集AVISeg，验证了新方法在音频-视觉分割中的有效性。此外，提出了音视频分割（AVS）问题及基准AVSBench，利用时间像素级交互模块提升分割效果，实验结果显示该方法在音频-视觉表示学习中取得了显著进展。

将分割任何模型扩展到音频和时间维度进行音频 - 视觉分割

BriefGPT - AI 论文速递 ·