机器之心 ·

火了！高中生用Minecraft做AI基准，用户看图投票决定大模型排名

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

MC-Bench 是一个基于 Minecraft 的 AI 基准测试平台，允许用户匿名投票评估 AI 创作。该测试关注指令遵循、代码完成度和创造力，旨在提供新的 AI 性能评估视角。创办者 Adi Singh 认为 Minecraft 的普及性使其成为理想的测试工具。该项目受到社区好评，未来计划开放数据供研究使用。

🎯

关键要点

MC-Bench 是一个基于 Minecraft 的 AI 基准测试平台，允许用户匿名投票评估 AI 创作。
该测试关注指令遵循、代码完成度和创造力，旨在提供新的 AI 性能评估视角。
创办者 Adi Singh 认为 Minecraft 的普及性使其成为理想的测试工具。
用户可以通过投票参与，累计票数中的 ELO 分数决定模型排名。
排行榜的收敛程度高，Claude 3.7 & 3.5 和 GPT-4.5 领先。
MC-Bench 是一个编程基准，模型需要编写代码来创建提示的构建。
Adi Singh 认为 Minecraft 的熟悉程度使其在测试基准中具有价值。
用户评价作品的视觉效果比研究代码更容易，增加了数据收集的可能性。
开放式游戏能提供检验 AI 性能的新颖视角，已被多款知名游戏加入基准测试。
MC-Bench 社区评价高，特别是在 3D 空间理解和创造力评估方面。
MC-Bench 团队计划开放数据供研究使用，并愿意提供后端查看权限。

🔎

延伸解读

Minecraft的独特优势

MC-Bench利用Minecraft作为基准测试工具，得益于其广泛的用户基础和易于理解的视觉效果。用户可以通过简单的投票参与评估，这种方式比传统的代码评估更具吸引力，能够吸引更多人参与，从而收集到更丰富的数据。

AI评估的新视角

传统的AI基准测试往往存在主场优势，导致模型在特定任务上表现优异。MC-Bench通过开放式游戏提供了新的评估视角，能够更全面地测试AI的创造力和空间理解能力，避免了单一任务的局限性。

社区反馈与未来发展

MC-Bench在社区中获得了积极评价，尤其是在3D空间理解和创造力评估方面。未来，团队计划开放数据供研究使用，这将为AI领域的研究提供更多的实证基础，促进技术的进一步发展。

❓

延伸问答

MC-Bench 是什么？

MC-Bench 是一个基于 Minecraft 的 AI 基准测试平台，允许用户匿名投票评估 AI 创作。

MC-Bench 如何评估 AI 模型的表现？

MC-Bench 主要关注指令遵循、代码完成度和创造力，通过用户投票来评估 AI 模型的表现。

谁创办了 MC-Bench？

MC-Bench 的创办者是高中生 Adi Singh。

用户如何参与 MC-Bench 的投票？

用户可以匿名投票，投票后才能看到每个作品是由哪个模型完成的。

MC-Bench 的排行榜情况如何？

排行榜的收敛程度高，Claude 3.7 & 3.5 和 GPT-4.5 领先。

MC-Bench 未来有什么计划？

MC-Bench 团队计划开放数据供研究使用，并愿意提供后端查看权限。

🏷️