大型语言模型是视频问答中的时间和因果推理器

通过使用 Flipped-VQA 框架，我们成功应用于 LLaMA-VQA 和其它 LLMs 模型，取得了在五个具有挑战性的 VideoQA 基准测试中优于基于 LLMs 和非 LLMs 模型的结果，并且实验证明 Flipped-VQA 不仅增强了语言快捷方式的利用，还减轻了由于过度依赖问题而导致错误答案的语言偏见。

该研究探讨了利用预训练技术进行视频语言理解的新趋势，通过迫使视觉语言模型回答问题并同时提供视觉证据，试图确定这些技术的预测在多大程度上基于相关视频内容。研究发现这些模型在证实答案方面表现较弱，提出了通过高斯掩模优化和跨模态学习的视频定位机制来解决这个问题，并发布了数据集和代码。