小红花·文摘

实时互动网 ·

本文提出了一种自监督框架，用于音频-视觉表示学习，显著提升了视频中声音源定位的效果。通过数据增强和新约束条件，模型在多个基准测试中表现优异，尤其在音频与视觉的对应学习和动作识别任务中取得了最先进的结果。

BriefGPT - AI 论文速递 ·