Video-Bench:用于评估基于视频的大型语言模型的综合基准和工具匠
原文中文,约500字,阅读约需2分钟。发表于: 。视频型大型语言模型(Video-LLM)的评估系统是本文提出的主题,通过建立全面的基准测试系统,评估多种任务下的 Video-LLM 能力水平,揭示当前模型在理解和分析真实世界视频方面与人类的差距,提供有价值的研究方向。
最近的研究关注生成式多模态大型语言模型(MLLMs),通过引入SEED-Bench基准测试解决了MLLMs生成理解评估问题。该基准测试包含19K个准确的多项选择问题,涵盖了12个评估维度,包括图像和视频模态的理解。希望SEED-Bench为未来的研究提供见解。