一种用于长视频问答的简单 LLM 框架
原文中文,约500字,阅读约需1分钟。发表于: 。我们介绍了 LLoVi,这是一个用于长距离视频问答(LVQA)的基于语言的框架。我们的方法使用基于帧 / 片段级的视觉描述器和大型语言模型(如 GPT-3.5,GPT-4),结合简单且出奇有效的 LVQA 框架,将短期和长期建模方面分解为两个阶段,从而实现对整个视频的理解和问题的回答。
研究人员引入了VaQuitA框架,提高视频和文本信息之间的协同作用。采用CLIP分数排名引导的采样方法,集成可训练的视频感知器和Visual-Query Transformer。实验结果显示,VaQuitA在零样本视频问答任务中表现出色,生成高质量的多轮视频对话。