本文介绍了一种新的音频-视觉视频解析(AVVP)任务的方法,该方法将音频和视觉模态中的事件分开,并同时检测这些事件的开始和结束。通过对抗性训练、全局上下文知觉关注和自监督预训练,获得了跨模态的音频-视频表示。实验结果表明该方法在AVVP任务上优于HAN模型。
完成下面两步后,将自动完成登录并继续当前操作。