MM-SAP:评估多模态大型语言模型在感知领域自感知能力的综合基准
原文中文,约500字,阅读约需2分钟。发表于: 。通过引入知识象限来定义知道与不知道的知觉,我们针对自我知觉在图像感知方面提出了一个评估多模态大型语言模型的自我感知能力的新型基准测试(MM-SAP),通过评估八种知名的多模态大型语言模型的自我感知能力,提供了详细的洞察。
最近的研究关注生成式多模态大型语言模型(MLLMs),通过引入名为SEED-Bench的基准测试解决了MLLMs生成理解的评估问题。该基准测试包含19K个准确的多项选择问题,涵盖了12个评估维度,包括图像和视频模态的理解。通过评估结果揭示了现有MLLMs的局限性,并建立了一个排行榜为社区提供评估和研究模型能力的平台。