基于位置感知的跨模态对应学习用于密集音视频事件定位
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文介绍了一种新的音频-视觉视频解析(AVVP)任务的方法,该方法将音频和视觉模态中的事件分开,并同时检测这些事件的开始和结束。通过对抗性训练、全局上下文知觉关注和自监督预训练,获得了跨模态的音频-视频表示。实验结果表明该方法在AVVP任务上优于HAN模型。
🎯
关键要点
- 介绍了一种新的音频-视觉视频解析(AVVP)任务的方法。
- 该方法将音频和视觉模态中的事件分开,并同时检测事件的开始和结束。
- 利用对抗性训练、全局上下文知觉关注和自监督预训练来获得跨模态的音频-视频表示。
- 实验结果表明该方法在AVVP任务上优于现有的HAN模型。
➡️