本研究提出WorldSense,这是首个评估多模态视频理解的基准,涵盖视觉、音频和文本输入。WorldSense包含1662个视频和3172个多项选择问答,显著提升了真实场景理解的评估质量,推动了多模态理解研究的发展。
完成下面两步后,将自动完成登录并继续当前操作。