谷歌DeepMind与Kaggle合作推出Game Arena,旨在测试AI在棋类、狼人和扑克等游戏中的推理与社交能力。该基准评估AI在不确定环境中的表现,促进AI助手的软技能发展。
Kaggle推出了Game Arena,一个新的AI基准平台,通过战略游戏评估模型能力,以解决当前AI基准测试无法跟上现代模型发展的问题。该平台提供明确的成功信号,促进公平评估,未来将扩展更多挑战以推动AI模型进步。
本研究提出了GameArena,通过与人类互动游戏动态评估大型语言模型(LLMs)的推理能力,克服了现有基准的局限性,并收集了2000多个游戏会话的数据。
完成下面两步后,将自动完成登录并继续当前操作。