小红花·文摘

本文介绍了一种新的音频-视觉视频解析（AVVP）任务的方法，该方法将音频和视觉模态中的事件分开，并同时检测这些事件的开始和结束。通过对抗性训练、全局上下文知觉关注和自监督预训练，获得了跨模态的音频-视频表示。实验结果表明该方法在AVVP任务上优于HAN模型。