小红花·文摘

最近的研究关注生成式多模态大型语言模型（MLLMs），通过引入名为SEED-Bench的基准测试解决了MLLMs生成理解的评估问题。该基准测试包含19K个准确的多项选择问题，涵盖了12个评估维度，包括图像和视频模态的理解。通过评估结果揭示现有MLLMs的局限性，希望SEED-Bench为未来的研究提供见解。将建立并持续维护一个排行榜，为社区提供评估和研究模型能力的平台。