长时间自视角视频中的基于场景的问答

原文约400字,阅读约需1分钟。发表于:

本文旨在解决在长时间自我中心视频中的开放式问题回答,提出一种综合模型来减少错误传播、利用大语言模型进行高效可扩展的数据合成,并引入一个闭合式问题回答任务以管理答案的模糊性。实验证明了我们的方法的有效性,并在 QAEgo4D 和 Ego4D-NLQ 基准测试中达到了最先进的性能。

本研究探讨了视频问答中视觉语言模型(VLMs)的性能,发现VLMs在证实答案方面表现较弱。为解决此问题,提出了高斯掩模优化和跨模态学习的视频定位机制,实验证明其改善了视频定位和问答效果。

相关推荐 去reddit讨论