o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
💡
原文中文,约2100字,阅读约需5分钟。
📝
内容提要
o3-pro在推箱子和俄罗斯方块等经典小游戏中表现优异,成为新的大模型基准测试,展示了强大的游戏能力。该测试基于Lmgame框架,未来将动态更新游戏关卡。
🎯
关键要点
- o3-pro在推箱子和俄罗斯方块等经典小游戏中表现优异,成为新的大模型基准测试。
- o3-pro突破了推箱子和俄罗斯方块的benchmark上限,成绩翻倍。
- Lmgame框架用于测试大模型的游戏能力,推箱子和俄罗斯方块是其中的两个游戏。
- 推箱子的评估指标是推动到目标位置的箱子总数,o3-pro成功通关所有关卡。
- 俄罗斯方块的得分计算方式是放置的方块数量与清除行数的10倍相加。
- Lmgame中还包括2048、糖果传奇、马里奥兄弟和逆转裁判等游戏。
- 测试过程中采用迭代交互循环模式,模型根据游戏状态生成动作并执行。
- 每个游戏的评价方式不同,但都不考虑时间因素。
- 该benchmark是开源的,用户可以下载进行模型测试。
- Hao AI Lab负责该项目,张昊是负责人,参与过多个开源项目的创建。
❓
延伸问答
o3-pro在推箱子游戏中的表现如何?
o3-pro成功通关了所有推箱子关卡,突破了benchmark上限。
Lmgame框架的主要功能是什么?
Lmgame框架用于测试大模型的游戏能力,包含多个经典小游戏。
俄罗斯方块的得分计算方式是什么?
得分为放置的方块数量与清除行数的10倍相加。
o3-pro与之前的模型相比有什么进步?
o3-pro的成绩是前SOTA模型o3的两倍,表现显著提升。
该benchmark是否开源?
是的,该benchmark是开源的,用户可以下载进行模型测试。
Hao AI Lab的负责人是谁?
Hao AI Lab的负责人是张昊,他参与过多个开源项目的创建。
➡️