本研究引入了SEED-Bench基准测试,用于评估MLLMs的生成理解能力,包含19K个准确的多项选择问题,涵盖了12个评估维度。通过评估18个模型的性能,揭示了现有MLLMs的局限性。SEED-Bench将为未来的研究提供见解,并建立并持续维护一个排行榜。
完成下面两步后,将自动完成登录并继续当前操作。