长时间自视角视频中的基于场景的问答

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究探讨了视频问答中视觉语言模型(VLMs)的性能,发现VLMs在证实答案方面表现较弱。为解决此问题,提出了高斯掩模优化和跨模态学习的视频定位机制,实验证明其改善了视频定位和问答效果。

🎯

关键要点

  • 本研究探讨了视觉基础的视频问答,回应了视频语言理解的新趋势。

  • 研究通过视觉语言模型(VLMs)回答问题并提供视觉证据,评估其预测的可靠性。

  • 构建了具有10.5K时间定位标签的NExT-GQA数据集,审查了各种先进的VLMs。

  • 发现这些模型在证实答案方面表现较弱,尽管问答性能强劲,暴露了其预测的局限性。

  • 为解决问题,提出高斯掩模优化和跨模态学习的视频定位机制。

  • 实验证明该定位机制改善了视频定位和问答效果。

  • 研究团队发布了数据集和代码,旨在提高VQA系统中VLMs的可靠性。

➡️

继续阅读