小红花·文摘

研究人员引入了VaQuitA框架，提高视频和文本信息之间的协同作用。采用CLIP分数排名引导的采样方法，集成可训练的视频感知器和Visual-Query Transformer。实验结果显示，VaQuitA在零样本视频问答任务中表现出色，生成高质量的多轮视频对话。