小红花·文摘

本研究提出了一种文本模拟家庭环境，用于基准测试大语言模型（LLMs）在实际推理中的能力。研究表明，环境复杂性和游戏限制会影响模型表现，LLMs在简明行动规划方面面临挑战。