研究人员引入了VaQuitA框架,提高视频和文本信息的协同作用。采用CLIP分数排名引导的采样方法,结合可训练的视频感知器和Visual-Query Transformer。实验结果显示,VaQuitA在零样本视频问答任务中表现出色,并生成高质量的多轮视频对话。
完成下面两步后,将自动完成登录并继续当前操作。