本研究探讨了视频问答中视觉语言模型(VLMs)的性能,发现VLMs在证实答案方面表现较弱。为解决此问题,提出了高斯掩模优化和跨模态学习的视频定位机制,实验证明其改善了视频定位和问答效果。
完成下面两步后,将自动完成登录并继续当前操作。