量子位 ·

大模型开始打王者荣耀了

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

腾讯推出的Think-In-Games框架使大语言模型在《王者荣耀》中实现实时决策，模型通过边玩边学的方式学习人类玩家策略，准确率达到90.91%。该方法结合强化学习和语言建模，显著提升推理能力。

🎯

关键要点

腾讯推出的Think-In-Games框架使大语言模型在《王者荣耀》中实现实时决策。
模型通过边玩边学的方式学习人类玩家策略，准确率达到90.91%。
TiG将基于强化学习的决策重新定义为语言建模任务，弥合了传统大语言模型与强化学习的鸿沟。
大语言模型主要学习人类玩家在游戏中的宏观推理能力，制定团队策略。
模型通过读取游戏状态并选择宏操作，提供策略建议并解释原因。
研究团队构建数据集并提出“重新标注算法”以确保每个游戏状态都有宏观动作标签。
采用Group Relative Policy Optimization (GRPO)算法进行战略推理学习，使用基于二元规则的奖励机制。
TiG结合监督微调和强化学习的多阶段训练方法，显著提高模型能力。
实验结果表明，SFT和GRPO的组合能显著提高模型性能，Qwen-3-14B达到了90.91%的准确率。

❓

延伸问答

Think-In-Games框架的主要功能是什么？

Think-In-Games框架使大语言模型在《王者荣耀》中实现实时决策，能够理解游戏状态并进行策略建议。

大语言模型在《王者荣耀》中如何学习人类玩家的策略？

模型通过边玩边学的方式，实时学习人类玩家的宏观推理能力和团队策略。

TiG框架如何提高模型的推理能力？

TiG结合了监督微调和强化学习的多阶段训练方法，显著提升了模型的推理能力。

Qwen-3-14B模型的准确率是多少？

Qwen-3-14B模型的准确率达到了90.91%。

TiG框架如何处理游戏状态和策略选择？

TiG框架通过读取游戏状态并选择宏操作，生成策略建议并解释原因。

在训练过程中，TiG使用了哪些算法？

TiG使用了Group Relative Policy Optimization (GRPO)算法和监督微调（SFT）进行训练。

🏷️

继续阅读

LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调
本文讨论了在真实世界中部署通用机器人策略的挑战，提出了一种名为“部署中学习”（LWD）的框架，通过车队规模的离线到在线强化学习（RL）实现策略的持续改进。...
国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...
【Rust日报】2026-05-01 Rust 原生数据表格组件 uiGrid 发布
Rust 原生数据表格组件 uiGrid 发布一个为 egui 开发的功能丰富的数据表格组件已在 GitHub 开源，采用 MIT 许可证。主要特性 ...
DeepSeek V4 发布没炸场，却靠降价掀起革命？
DeepSeek V4 发布后，通过降价策略打破了高 Token 价格和订阅套餐的束缚，用户可按需付费，吸引了更多低频用户，改变了市场格局。
早报｜苹果：下季度内存成本压力将显著加大/宇树最便宜人形机器发布/5月1日高速车流或创历史纪录
iPhone 18 Pro预计将进行重大相机升级，配备可变光圈和新Siri模式，用户可通过AI服务提问。苹果毛利率创历史新高，但内存成本压力加大。三星Q1...
蒂姆·费里斯秀文字记录：埃拉德·吉尔，帝国建设者的顾问——如何在其他人之前发现十亿美元公司，模糊的AI前沿，可口可乐如何击败百事，何时共识获利，以及更多内容 (#863)
Elad Gil在访谈中讨论了AI领域的最新动态，包括Meta对AI人才的争夺和计算能力的限制。他指出，AI公司薪酬激增类似于IPO，导致人才流动和市场变...