大模型开始打王者荣耀了

💡 原文中文,约2300字,阅读约需6分钟。
📝

内容提要

腾讯推出的Think-In-Games框架使大语言模型在《王者荣耀》中实现实时决策,模型通过边玩边学的方式学习人类玩家策略,准确率达到90.91%。该方法结合强化学习和语言建模,显著提升推理能力。

🎯

关键要点

  • 腾讯推出的Think-In-Games框架使大语言模型在《王者荣耀》中实现实时决策。
  • 模型通过边玩边学的方式学习人类玩家策略,准确率达到90.91%。
  • TiG将基于强化学习的决策重新定义为语言建模任务,弥合了传统大语言模型与强化学习的鸿沟。
  • 大语言模型主要学习人类玩家在游戏中的宏观推理能力,制定团队策略。
  • 模型通过读取游戏状态并选择宏操作,提供策略建议并解释原因。
  • 研究团队构建数据集并提出“重新标注算法”以确保每个游戏状态都有宏观动作标签。
  • 采用Group Relative Policy Optimization (GRPO)算法进行战略推理学习,使用基于二元规则的奖励机制。
  • TiG结合监督微调和强化学习的多阶段训练方法,显著提高模型能力。
  • 实验结果表明,SFT和GRPO的组合能显著提高模型性能,Qwen-3-14B达到了90.91%的准确率。

延伸问答

Think-In-Games框架的主要功能是什么?

Think-In-Games框架使大语言模型在《王者荣耀》中实现实时决策,能够理解游戏状态并进行策略建议。

大语言模型在《王者荣耀》中如何学习人类玩家的策略?

模型通过边玩边学的方式,实时学习人类玩家的宏观推理能力和团队策略。

TiG框架如何提高模型的推理能力?

TiG结合了监督微调和强化学习的多阶段训练方法,显著提升了模型的推理能力。

Qwen-3-14B模型的准确率是多少?

Qwen-3-14B模型的准确率达到了90.91%。

TiG框架如何处理游戏状态和策略选择?

TiG框架通过读取游戏状态并选择宏操作,生成策略建议并解释原因。

在训练过程中,TiG使用了哪些算法?

TiG使用了Group Relative Policy Optimization (GRPO)算法和监督微调(SFT)进行训练。

➡️

继续阅读