o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark

💡 原文中文,约2100字,阅读约需5分钟。
📝

内容提要

o3-pro在推箱子和俄罗斯方块等经典小游戏中表现优异,成为新的大模型基准测试,展示了强大的游戏能力。该测试基于Lmgame框架,未来将动态更新游戏关卡。

🎯

关键要点

  • o3-pro在推箱子和俄罗斯方块等经典小游戏中表现优异,成为新的大模型基准测试。
  • o3-pro突破了推箱子和俄罗斯方块的benchmark上限,成绩翻倍。
  • Lmgame框架用于测试大模型的游戏能力,推箱子和俄罗斯方块是其中的两个游戏。
  • 推箱子的评估指标是推动到目标位置的箱子总数,o3-pro成功通关所有关卡。
  • 俄罗斯方块的得分计算方式是放置的方块数量与清除行数的10倍相加。
  • Lmgame中还包括2048、糖果传奇、马里奥兄弟和逆转裁判等游戏。
  • 测试过程中采用迭代交互循环模式,模型根据游戏状态生成动作并执行。
  • 每个游戏的评价方式不同,但都不考虑时间因素。
  • 该benchmark是开源的,用户可以下载进行模型测试。
  • Hao AI Lab负责该项目,张昊是负责人,参与过多个开源项目的创建。

延伸问答

o3-pro在推箱子游戏中的表现如何?

o3-pro成功通关了所有推箱子关卡,突破了benchmark上限。

Lmgame框架的主要功能是什么?

Lmgame框架用于测试大模型的游戏能力,包含多个经典小游戏。

俄罗斯方块的得分计算方式是什么?

得分为放置的方块数量与清除行数的10倍相加。

o3-pro与之前的模型相比有什么进步?

o3-pro的成绩是前SOTA模型o3的两倍,表现显著提升。

该benchmark是否开源?

是的,该benchmark是开源的,用户可以下载进行模型测试。

Hao AI Lab的负责人是谁?

Hao AI Lab的负责人是张昊,他参与过多个开源项目的创建。

➡️

继续阅读