小红花·文摘

FAVOR是一种音视频联合表示学习框架，能够感知音频和视觉输入流中的语音、音频事件以及图像或视频，并增强音视频帧之间的因果关系捕捉。在音频、语音和图像任务上表现出竞争力，并在视频问答任务上实现了超过20%的准确度改进。