小红花·文摘

o3-pro在推箱子和俄罗斯方块等经典小游戏中表现优异，成为新的大模型基准测试，展示了强大的游戏能力。该测试基于Lmgame框架，未来将动态更新游戏关卡。

量子位 ·

本文研究了如何通过热门视频游戏评估大型语言模型（LLMs）的表现，指出直接将LLMs投入游戏无法有效评估。引入lmgame-Bench作为评估工具，通过统一API和感知、记忆支持，成功区分不同模型能力，并发现强化学习在单一游戏上的表现可迁移至其他游戏和任务。

BriefGPT - AI 论文速递 ·