小红花·文摘

本研究引入了SEED-Bench基准测试，用于评估MLLMs的生成理解能力，包含19K个准确的多项选择问题，涵盖了12个评估维度。通过评估18个模型的性能，揭示了现有MLLMs的局限性。SEED-Bench将为未来的研究提供见解，并建立并持续维护一个排行榜。