BriefGPT - AI 论文速递 ·

无监督音频视觉分割与模态对齐

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文提出了一种新的音视频分割（AVS）方法，利用跨模态语义过滤技术，能够准确分割视觉场景中的声音对象。通过构建AVSBench基准集和引入音视频交互模块，实验结果显示该方法在复杂场景中表现优异，尤其在重叠对象分割方面。研究还展示了多种新策略和模型，推动了音频与视觉的有效整合与分割。

🎯

提出了一种新的跨模态语义过滤（CMSF）方法，能够准确分割视觉场景中的声音对象。
构建了第一个音视频分割（AVS）基准集AVSBench，为声音对象提供像素级注释。
引入了一种基于时间的像素级音视频交互模块，指导视觉分割过程并设计正则化损失函数。
通过建立视觉特征与声音的鲁棒相关性，利用双向生成框架实现音频-视觉分割的改进性能。
提出了Visual Post-production (VPO)策略，构建经济实惠的音频-视觉语义分割基准数据集。
提出了AVSAC方法，通过双向音频-视觉解码器增强音频线索，实现音频与视觉模态的有效整合。
提出了Audio-Aware Transformer (AuTR)结构，增强模型的分割准确性。
提出了Audio Unmixing and Semantic Segmentation Network (AUSS)，通过音频解混和遮罩注意力机制建立音频流与图像像素的细粒度对应关系。
介绍了WS-AVS的弱监督音视频分割框架，实现了多尺度音视频对齐和分割。
提出了基于多模态基础知识的两阶段引导式音频-视觉分割框架，有效消除分割中的背景噪音或离屏音。

❓

音视频分割（AVS）是通过像素级精确描绘视觉场景中可听对象的方法。

本文提出了跨模态语义过滤（CMSF）、Visual Post-production (VPO)、AVSAC、Audio-Aware Transformer (AuTR)等新方法。

AVSBench基准集为声音对象提供像素级注释，支持音视频分割的研究和评估。

通过双向生成框架和音频-视觉解码器等技术，建立音频特征与视觉特征的鲁棒相关性。

WS-AVS框架通过多尺度多实例对比学习实现音视频对齐和分割，适用于单一源和多源情境。

AUSS通过音频解混和遮罩注意力机制建立音频流与图像像素的细粒度对应关系，增强模型的鲁棒性。

🏷️