大模型开始打王者荣耀了
内容提要
腾讯推出的Think-In-Games框架使大语言模型在《王者荣耀》中实现实时决策,模型通过边玩边学的方式学习人类玩家策略,准确率达到90.91%。该方法结合强化学习和语言建模,显著提升推理能力。
关键要点
-
腾讯推出的Think-In-Games框架使大语言模型在《王者荣耀》中实现实时决策。
-
模型通过边玩边学的方式学习人类玩家策略,准确率达到90.91%。
-
TiG将基于强化学习的决策重新定义为语言建模任务,弥合了传统大语言模型与强化学习的鸿沟。
-
大语言模型主要学习人类玩家在游戏中的宏观推理能力,制定团队策略。
-
模型通过读取游戏状态并选择宏操作,提供策略建议并解释原因。
-
研究团队构建数据集并提出“重新标注算法”以确保每个游戏状态都有宏观动作标签。
-
采用Group Relative Policy Optimization (GRPO)算法进行战略推理学习,使用基于二元规则的奖励机制。
-
TiG结合监督微调和强化学习的多阶段训练方法,显著提高模型能力。
-
实验结果表明,SFT和GRPO的组合能显著提高模型性能,Qwen-3-14B达到了90.91%的准确率。
延伸解读
大语言模型的训练创新
腾讯的Think-In-Games框架通过将大语言模型与《王者荣耀》结合,采用边玩边学的方式进行训练。这种创新方法不仅提升了模型的决策能力,还使其能够理解游戏中的复杂策略,标志着人工智能在游戏领域的重大进步。
宏观推理与团队协作
TiG框架强调宏观层面的推理能力,模型不仅能执行操作,还能制定团队策略。这种能力使得模型更像是一个教练,而非单纯的选手,能够在游戏中提供更具战略性的建议,帮助玩家更好地协作。
实验结果的启示
实验表明,结合监督微调和强化学习的多阶段训练方法显著提高了模型的准确率。尤其是Qwen-3-14B在经过训练后,准确率达到90.91%,这为未来的AI训练方法提供了新的思路,尤其是在数据和计算资源有限的情况下。
延伸问答
Think-In-Games框架的主要功能是什么?
Think-In-Games框架使大语言模型在《王者荣耀》中实现实时决策,能够理解游戏状态并进行策略建议。
大语言模型在《王者荣耀》中如何学习人类玩家的策略?
模型通过边玩边学的方式,实时学习人类玩家的宏观推理能力和团队策略。
TiG框架如何提高模型的推理能力?
TiG结合了监督微调和强化学习的多阶段训练方法,显著提升了模型的推理能力。
Qwen-3-14B模型的准确率是多少?
Qwen-3-14B模型的准确率达到了90.91%。
TiG框架如何处理游戏状态和策略选择?
TiG框架通过读取游戏状态并选择宏操作,生成策略建议并解释原因。
在训练过程中,TiG使用了哪些算法?
TiG使用了Group Relative Policy Optimization (GRPO)算法和监督微调(SFT)进行训练。