SEED-Bench-2-Plus:基于多模态大型语言模型的文本丰富视觉理解基准测试

原文约500字,阅读约需2分钟。发表于:

我们介绍了 SEED-Bench-2-Plus,这是一个专门设计用于评估 MLLMs 的文本丰富视觉理解的基准,通过涵盖现实世界中的三个广泛类别(图表、地图和网络),它们有效地模拟了复杂多样的文本丰富环境,并强调了当前 MLLMs 在文本丰富视觉理解方面的限制。

最近的研究关注生成式多模态大型语言模型(MLLMs),通过引入SEED-Bench基准测试解决了MLLMs生成理解评估问题。SEED-Bench包含19K个准确的多项选择问题,涵盖了12个评估维度,包括图像和视频模态的理解。评估结果揭示了现有MLLMs的局限性,为未来的研究提供见解。

相关推荐 去reddit讨论