本研究推出了开源文本竞技游戏集合TextArena,旨在解决传统基准无法评估动态社交技能的问题。用户可通过57种环境设置在线评估大语言模型的能力,推动研究与社区创新。
完成下面两步后,将自动完成登录并继续当前操作。