小红花·文摘

本研究探讨了视频问答中视觉语言模型（VLMs）的性能，发现VLMs在证实答案方面表现较弱。为解决此问题，提出了高斯掩模优化和跨模态学习的视频定位机制，实验证明其改善了视频定位和问答效果。

BriefGPT - AI 论文速递 ·

本研究探讨了视频问答中视觉语言模型（VLMs）的性能，发现VLMs在证实答案方面表现较弱。为解决此问题，提出了高斯掩模优化和跨模态学习的视频定位机制，实验证明其改善了视频定位和问答效果。

BriefGPT - AI 论文速递 ·