本文探讨了大型语言模型(LLMs)在文字游戏和战略决策中的表现。研究发现,尽管LLMs在某些任务上表现良好,但在复杂推理和战略游戏中存在局限性。模型在不同提示和设置下表现出系统性偏向,影响其决策能力。研究还引入新基准,分析LLMs在多种游戏中的表现差异,为理解其规则理解和战略思维能力提供基础。
完成下面两步后,将自动完成登录并继续当前操作。