小红花·文摘

本文探讨了大型语言模型（LLMs）在文字游戏和战略决策中的表现。研究发现，尽管LLMs在某些任务上表现良好，但在复杂推理和战略游戏中存在局限性。模型在不同提示和设置下表现出系统性偏向，影响其决策能力。研究还引入新基准，分析LLMs在多种游戏中的表现差异，为理解其规则理解和战略思维能力提供基础。