量子位 ·

GPT-4V仅达Level-2？全球首个多模态通才段位排行榜发布，General-Level打造多模态通用AI评测新范式

💡 原文中文，约7800字，阅读约需19分钟。

📝

内容提要

全球首个多模态通才段位排行榜General-Level发布，采用五级段位体系评估多模态AI能力。目前无模型达到Level-5，GPT-4V等大多数为Level-2，标志着多模态AI研究的新阶段。

🎯

🔎

General-Level评测框架引入五级段位体系，标志着多模态AI评测的重大进步。通过考察模型的协同效应，评估不仅关注单一任务的表现，还强调模型在不同任务间知识迁移的能力。这一新标准为未来的AGI发展提供了更科学的评估基础。

General-Level的Leaderboard设计确保了评测的公正性和透明性。所有模型在统一的评测环境中进行评分，且采用封闭测试集，避免了模型对测试数据的过拟合。这种机制不仅提升了评测结果的可信度，也为研究者提供了一个公平的竞争平台。

截至目前，排行榜中Level-2段位模型占比最多，显示出大多数多模态模型在协同学习上的不足。尽管GPT-4V等模型在任务范围上表现广泛，但未能体现出显著的协同增益。这一现象提示研究者在模型设计时需更加关注多任务训练的有效性。

❓

General-Level是全球首个多模态通才段位排行榜，采用五级段位体系评估多模态AI能力。

目前大多数模型，包括GPT-4V，均为Level-2段位，标志着它们具备一定的多模态能力，但未体现协同增益。

General-Bench被誉为规模最大、范畴最广的多模态通才AI评测基准，涵盖700多个任务和325,000+个样本。

参与者需选择榜单、下载评测数据、运行模型推理并提交结果，确保遵循官方格式要求。

截至目前，没有任何模型达到Level-5段位，这标志着距离真正的AGI仍有很大距离。

General-Level评测框架的核心在于协同泛化效应，强调模型在不同任务间知识迁移的能力。

🏷️