小红花·文摘

本研究提出了gg-bench，一个用于评估语言模型推理能力的游戏环境集合。通过生成新游戏的自然语言描述并实现为Gym环境，强化学习代理在与之对抗中表现不佳，显示出gg-bench的挑战性及其对未来模型研究的重要性。