大语言模型时代的视频问答:实证研究
原文中文,约500字,阅读约需1分钟。发表于: 。本研究关注视频问答(VideoQA)在视频大语言模型(Video-LLMs)发展中的关键作用,探讨其成功与失败模式。研究发现,虽然Video-LLMs在回答视频内容问题上表现出色,但在处理视频的时间性和鲁棒性方面存在显著不足,强调了在开发中需要加强对其行为的解释能力。
研究者引入了VaQuitA框架,提高视频和文本信息之间的协同作用。采用CLIP分数排名引导的采样方法,集成可训练的视频感知器和Visual-Query Transformer。实验结果显示,VaQuitA在零样本视频问答任务中表现出色,生成高质量的多轮视频对话。