量子位 ·

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

o3-pro在推箱子和俄罗斯方块等经典小游戏中表现优异，成为新的大模型基准测试，展示了强大的游戏能力。该测试基于Lmgame框架，未来将动态更新游戏关卡。

🎯

🔎

o3-pro在推箱子和俄罗斯方块等经典游戏中的表现，标志着大模型基准测试的一个新阶段。这些怀旧游戏不仅考验模型的逻辑推理能力，还为未来的AI发展提供了新的评估标准。随着Lmgame框架的动态更新，未来可能会引入更多复杂的游戏关卡，进一步挑战模型的能力。

Lmgame框架中不同游戏的评估标准各异，反映了游戏特性对模型表现的影响。例如，推箱子的评估侧重于推动箱子的数量，而俄罗斯方块则关注方块的放置和行数清除。这种多样性使得模型在不同游戏中的表现可以进行更全面的比较，帮助研究者更好地理解模型的优势和局限。

该benchmark是开源的，用户可以自由下载并进行模型测试。这为研究者和开发者提供了一个良好的平台，能够在此基础上进行创新和改进。同时，开源的特性也促进了社区的参与，可能会加速大模型技术的发展和应用。

❓

o3-pro成功通关了所有推箱子关卡，突破了benchmark上限。

Lmgame框架用于测试大模型的游戏能力，包含多个经典小游戏。

得分为放置的方块数量与清除行数的10倍相加。

o3-pro的成绩是前SOTA模型o3的两倍，表现显著提升。

是的，该benchmark是开源的，用户可以下载进行模型测试。

Hao AI Lab的负责人是张昊，他参与过多个开源项目的创建。

🏷️