本研究提出了GameArena,通过与人类互动游戏动态评估大型语言模型(LLMs)的推理能力,克服了现有基准的局限性,并收集了2000多个游戏会话的数据。
完成下面两步后,将自动完成登录并继续当前操作。