长时间自视角视频中的基于场景的问答

原文约400字，阅读约需1分钟。发表于：。

本文旨在解决在长时间自我中心视频中的开放式问题回答，提出一种综合模型来减少错误传播、利用大语言模型进行高效可扩展的数据合成，并引入一个闭合式问题回答任务以管理答案的模糊性。实验证明了我们的方法的有效性，并在 QAEgo4D 和 Ego4D-NLQ 基准测试中达到了最先进的性能。

本研究探讨了视频问答中视觉语言模型（VLMs）的性能，发现VLMs在证实答案方面表现较弱。为解决此问题，提出了高斯掩模优化和跨模态学习的视频定位机制，实验证明其改善了视频定位和问答效果。