o3-pro在推箱子和俄罗斯方块等经典小游戏中表现优异,成为新的大模型基准测试,展示了强大的游戏能力。该测试基于Lmgame框架,未来将动态更新游戏关卡。
本文研究了如何通过热门视频游戏评估大型语言模型(LLMs)的表现,指出直接将LLMs投入游戏无法有效评估。引入lmgame-Bench作为评估工具,通过统一API和感知、记忆支持,成功区分不同模型能力,并发现强化学习在单一游戏上的表现可迁移至其他游戏和任务。
完成下面两步后,将自动完成登录并继续当前操作。