基于位置感知的跨模态对应学习用于密集音视频事件定位

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文介绍了一种新的音频-视觉视频解析(AVVP)任务的方法,该方法将音频和视觉模态中的事件分开,并同时检测这些事件的开始和结束。通过对抗性训练、全局上下文知觉关注和自监督预训练,获得了跨模态的音频-视频表示。实验结果表明该方法在AVVP任务上优于HAN模型。

🎯

关键要点

  • 介绍了一种新的音频-视觉视频解析(AVVP)任务的方法。
  • 该方法将音频和视觉模态中的事件分开,并同时检测事件的开始和结束。
  • 利用对抗性训练、全局上下文知觉关注和自监督预训练来获得跨模态的音频-视频表示。
  • 实验结果表明该方法在AVVP任务上优于现有的HAN模型。
➡️

继续阅读