MM-BigBench:评估多模态模型在多模态内容理解任务上的表现
原文中文,约500字,阅读约需2分钟。发表于: 。通过使用全面的评估框架 MM-BigBench,本文综合评估了 20 个语言模型(包括 14 个多模态大型语言模型)在 14 个多模态数据集上的性能,并通过引入新的指标,对不同模型和指令之间的性能以及适应性进行了评估。
本研究提出了一个名为SEED-Bench的基准测试,用于评估生成式多模态大型语言模型(MLLMs)的生成理解能力。该测试包含19K个准确的多项选择问题,涵盖了12个评估维度,揭示了现有MLLMs的局限性,并为未来的研究提供了见解。同时,将建立并持续维护一个排行榜,为社区提供评估和研究模型能力的平台。