揭示 VQA 中视觉定位方法的全部潜力

原文约400字，阅读约需1分钟。发表于：。

视觉问题回答中的视觉定位方法试图通过增强模型对问题相关视觉信息的依赖性来提高视觉问题回答的性能。然而，在处理大规模视觉问题回答中常见的不完美图像表示时，这种对应视觉信息的假设是存在缺陷的，其与预期的真实内容之间的偏差导致了这些方法的潜在优势被严重低估，当前的评估方案存在问题。

本研究探讨了视频问答中视觉语言模型（VLMs）的性能，发现VLMs在证实答案方面表现较弱。为解决此问题，提出了高斯掩模优化和跨模态学习的视频定位机制，实验证明其改善了视频定位和问答效果。