IV-Bench:图像基础的视频感知与推理基准

📝

内容提要

本研究针对现有多模态大型语言模型在视频理解中忽视图像上下文的现象,提出了IV-Bench,这是首个用于评估图像基础视频感知和推理的综合基准。通过对多种先进模型的评估,研究发现现有模型在该领域的表现显著不足,最多仅达到28.9%的准确率,这为未来的研究提供了重要的方向与见解。

➡️

继续阅读