小红花·文摘

本文研究了视频问答（VideoQA），提出了分类学和分析方法，并探讨了未来研究方向。介绍了OVQA基准测试和Flipped-VQA框架，展示了其在视频理解中的优势。VaQuitA框架提升了视频与文本的协同作用，增强了大型语言模型（LLM）对视频的理解。MoVQA数据集评估多模态系统的认知能力，LLoVi框架为长视频问答提供有效方法。研究表明，利用大型语言模型在视频理解中具有巨大潜力。