小红花·文摘

该研究通过基于网格的游戏引入了一种新颖且可扩展的大规模语言模型（LLM）基准。研究结果显示LLMs在不同游戏和提示类型之间的性能存在显著差异。该研究增进了对LLMs在非特定训练游戏中的能力的理解，并为进一步探究LLMs在基于游戏的框架中的限制以及它们在复杂决策情境中的实用性奠定了基础。