最近的研究关注生成式多模态大型语言模型(MLLMs),通过引入名为SEED-Bench的基准测试解决了MLLMs生成理解的评估问题。该基准测试包含19K个准确的多项选择问题,涵盖了12个评估维度,包括图像和视频模态的理解。通过评估结果揭示现有MLLMs的局限性,希望SEED-Bench为未来的研究提供见解。将建立并持续维护一个排行榜,为社区提供评估和研究模型能力的平台。
完成下面两步后,将自动完成登录并继续当前操作。