本文探讨了基于强化学习的大型语言模型(LLM)在复杂环境中的应用,特别是在战略推理和游戏决策中的表现。研究提出了新框架,提升了LLM的决策能力,并通过实验验证了其在多代理环境中的有效性。
完成下面两步后,将自动完成登录并继续当前操作。