火了!高中生用Minecraft做AI基准,用户看图投票决定大模型排名

火了!高中生用Minecraft做AI基准,用户看图投票决定大模型排名

💡 原文中文,约1900字,阅读约需5分钟。
📝

内容提要

MC-Bench 是一个基于 Minecraft 的 AI 基准测试平台,允许用户匿名投票评估 AI 创作。该测试关注指令遵循、代码完成度和创造力,旨在提供新的 AI 性能评估视角。创办者 Adi Singh 认为 Minecraft 的普及性使其成为理想的测试工具。该项目受到社区好评,未来计划开放数据供研究使用。

🎯

关键要点

  • MC-Bench 是一个基于 Minecraft 的 AI 基准测试平台,允许用户匿名投票评估 AI 创作。

  • 该测试关注指令遵循、代码完成度和创造力,旨在提供新的 AI 性能评估视角。

  • 创办者 Adi Singh 认为 Minecraft 的普及性使其成为理想的测试工具。

  • 用户可以通过投票参与,累计票数中的 ELO 分数决定模型排名。

  • 排行榜的收敛程度高,Claude 3.7 & 3.5 和 GPT-4.5 领先。

  • MC-Bench 是一个编程基准,模型需要编写代码来创建提示的构建。

  • Adi Singh 认为 Minecraft 的熟悉程度使其在测试基准中具有价值。

  • 用户评价作品的视觉效果比研究代码更容易,增加了数据收集的可能性。

  • 开放式游戏能提供检验 AI 性能的新颖视角,已被多款知名游戏加入基准测试。

  • MC-Bench 社区评价高,特别是在 3D 空间理解和创造力评估方面。

  • MC-Bench 团队计划开放数据供研究使用,并愿意提供后端查看权限。

延伸问答

MC-Bench 是什么?

MC-Bench 是一个基于 Minecraft 的 AI 基准测试平台,允许用户匿名投票评估 AI 创作。

MC-Bench 如何评估 AI 模型的表现?

MC-Bench 主要关注指令遵循、代码完成度和创造力,通过用户投票来评估 AI 模型的表现。

谁创办了 MC-Bench?

MC-Bench 的创办者是高中生 Adi Singh。

用户如何参与 MC-Bench 的投票?

用户可以匿名投票,投票后才能看到每个作品是由哪个模型完成的。

MC-Bench 的排行榜情况如何?

排行榜的收敛程度高,Claude 3.7 & 3.5 和 GPT-4.5 领先。

MC-Bench 未来有什么计划?

MC-Bench 团队计划开放数据供研究使用,并愿意提供后端查看权限。

➡️

继续阅读