GPT-4V仅达Level-2?全球首个多模态通才段位排行榜发布,General-Level打造多模态通用AI评测新范式

💡 原文中文,约7800字,阅读约需19分钟。
📝

内容提要

全球首个多模态通才段位排行榜General-Level发布,采用五级段位体系评估多模态AI能力。目前无模型达到Level-5,GPT-4V等大多数为Level-2,标志着多模态AI研究的新阶段。

🎯

关键要点

  • 全球首个多模态通才段位排行榜General-Level发布,采用五级段位体系评估多模态AI能力。
  • 目前无模型达到Level-5,GPT-4V等大多数为Level-2,标志着多模态AI研究的新阶段。
  • General-Level评测框架引入五级段位体系,评估模型的通才能力。
  • 模型段位从低到高依次为:Level-1专业高手,Level-2通才新秀,Level-3任务协同,Level-4范式协同,Level-5全模态完全协同。
  • General-Bench被誉为当前规模最大、范畴最广的多模态通才AI评测基准,涵盖700多个任务和325,000+个样本。
  • Leaderboard设计了多层次的榜单Scope分层解耦机制,允许不同能力的模型参与评测。
  • Leaderboard提供清晰的参赛流程和公平性保障机制,确保评测的公正性。
  • 截至目前,排行榜收录了100多个多模态模型的成绩,Level-2段位模型占比最多。
  • Level-3模型在若干任务上击败专业模型,展现出协同学习带来的性能飞跃。
  • Level-4模型仍属凤毛麟角,当前没有模型达到Level-5,提醒我们距离真正的AGI仍有距离。
  • General-Level项目秉持开放共享的态度,欢迎社区广泛参与共建。

延伸问答

什么是General-Level多模态通才段位排行榜?

General-Level是全球首个多模态通才段位排行榜,采用五级段位体系评估多模态AI能力。

目前有哪些模型达到Level-2段位?

目前大多数模型,包括GPT-4V,均为Level-2段位,标志着它们具备一定的多模态能力,但未体现协同增益。

General-Bench评测基准的特点是什么?

General-Bench被誉为规模最大、范畴最广的多模态通才AI评测基准,涵盖700多个任务和325,000+个样本。

如何参与General-Level排行榜的评测?

参与者需选择榜单、下载评测数据、运行模型推理并提交结果,确保遵循官方格式要求。

Level-5段位的模型目前有吗?

截至目前,没有任何模型达到Level-5段位,这标志着距离真正的AGI仍有很大距离。

General-Level评测框架的核心是什么?

General-Level评测框架的核心在于协同泛化效应,强调模型在不同任务间知识迁移的能力。

➡️

继续阅读