FAVOR是一种音视频联合表示学习框架,能够感知音频和视觉输入流中的语音、音频事件以及图像或视频,并增强音视频帧之间的因果关系捕捉。在音频、语音和图像任务上表现出竞争力,并在视频问答任务上实现了超过20%的准确度改进。
完成下面两步后,将自动完成登录并继续当前操作。