评估多模态基础模型的视觉时间推理能力的TOMATO
💡
原文中文,约1900字,阅读约需5分钟。
📝
内容提要
本文介绍了多个新的视频理解基准,包括AGQA、MVBench、MMWorld和TemporalBench,旨在评估多模态语言模型(MLLMs)在视频分析中的表现。研究发现现有模型在时间推理和长视频理解方面存在显著不足,并提出了改进方法和新框架以提升模型性能。
🎯
关键要点
- AGQA是一个新的基准,提供3.9M个问题答案对,测试模型的推理能力。
- 现有模型在新颖组合的推广能力上存在显著不足。
- MVBench评估多模态大型语言模型的时间理解能力,VideoChat2在该基准上表现优异。
- Video-MME是第一个全方位的多模式评估基准,评估MLLMs在视频分析中的性能。
- MMWorld是一个新的多模态视频理解基准,涵盖多个学科和推理方式,显示现有模型表现不佳。
- InfiniBench是针对长视频理解的基准,旨在解决现有基准对短视频的偏重。
- VideoINSTA框架结合事件驱动和内容驱动的推理,提升了长视频问答的表现。
- Vinoground评估基准显示短视频理解中模型与人类基线的显著差距。
- T3方法通过迁移学习提高了模型在时间推理任务上的表现。
- TemporalBench提供了细粒度时间理解的评估平台,揭示了模型与人类之间的差距。
❓
延伸问答
AGQA基准的主要功能是什么?
AGQA基准提供3.9M个问题答案对,测试模型的推理能力,特别是新颖组合的泛化和间接引用。
MVBench如何评估多模态语言模型的时间理解能力?
MVBench通过将静态任务转化为动态任务,评估多模态大型语言模型在时间理解方面的表现。
MMWorld基准与其他视频理解基准有何不同?
MMWorld涵盖多个学科和推理方式,强调领域专业知识和多方面的推理能力。
InfiniBench基准的目的是什么?
InfiniBench旨在解决现有基准对短视频的偏重,专注于非常长视频的理解。
VideoINSTA框架如何提升长视频问答的表现?
VideoINSTA框架结合事件驱动和内容驱动的推理,显著提升了长视频问答的表现。
TemporalBench基准揭示了什么问题?
TemporalBench揭示了当前先进模型在时间理解方面与人类之间存在约30%的显著差距。
➡️