本研究提出了gg-bench,一个用于评估语言模型推理能力的游戏环境集合。通过生成新游戏的自然语言描述并实现为Gym环境,强化学习代理在与之对抗中表现不佳,显示出gg-bench的挑战性及其对未来模型研究的重要性。
完成下面两步后,将自动完成登录并继续当前操作。