量子位 ·

Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

Qwen与清华团队的研究表明，在大模型强化学习中，仅使用20%的高熵token即可显著提升训练效果，优于使用全部token。这一发现挑战了传统的二八法则，指出低熵token对推理贡献有限，可能限制模型的探索能力。聚焦关键token使模型在泛化能力上表现出色，训练过程中的熵模式演变也强调了高熵token的重要性。

🎯

关键要点

Qwen与清华团队的研究表明，仅使用20%的高熵token即可显著提升大模型强化学习的训练效果。
这一发现挑战了传统的二八法则，指出低熵token对推理贡献有限，可能限制模型的探索能力。
高熵token在链式思考推理中扮演着关键角色，能够帮助模型探索不同的推理路径。
在强化学习训练中，仅保留top 20%高熵token的策略梯度，显著提升了模型性能。
低熵token对推理能力的提升贡献微乎其微，甚至可能起到负面作用。
模型越大，仅用高熵token训练的优势越明显，32B模型的提升最大。
高熵token可能与模型的泛化能力密切相关，聚焦这些关键决策点有助于学习更本质的推理模式。
RLVR训练过程中的熵模式演变显示，模型与base model在高熵token位置上的重叠率保持较高。
高熵token的灵活性可能是强化学习能泛化的关键，而监督微调则倾向于记忆和过拟合。
在强化学习与可验证奖励算法中，clip-higher方法能有效提升高熵少数标记的熵值。

❓

延伸问答

Qwen与清华团队的研究发现了什么重要的训练策略？

研究发现仅使用20%的高熵token可以显著提升大模型强化学习的训练效果，优于使用全部token。

为什么低熵token可能对模型的推理能力产生负面影响？

低熵token对推理能力的提升贡献微乎其微，甚至可能限制模型的探索能力，因为它们过于确定。

高熵token在推理过程中扮演什么角色？

高熵token通常作为逻辑连接器，帮助模型在推理中进行转折、递进或因果连接。

使用高熵token训练的模型在其他任务上表现如何？

仅用20%高熵token训练的模型在域外任务上表现优异，超越了使用全部token训练的版本。

这项研究如何挑战传统的二八法则？

研究表明，在大模型强化学习中，80%的低熵token不仅可以舍弃，甚至可能起副作用，挑战了传统的二八法则。

在强化学习训练中，如何验证高熵token的重要性？

通过实验发现，适度提高高熵token的温度能改善推理性能，而降低温度则会导致性能下降，验证了高熵token的重要性。

🏷️

继续阅读

LWD——结合“分布式隐式价值学习与基于QAM的策略提取”的RL策略框架，先离线RL预训练，后在线RL微调
本文讨论了在真实世界中部署通用机器人策略的挑战，提出了一种名为“部署中学习”（LWD）的框架，通过车队规模的离线到在线强化学习（RL）实现策略的持续改进。...
国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...
LWiAI播客第242期 - ChatGPT图像2.0，Qwen 3.6 Max，Kimi-K2.6
本期播客讨论了最新的AI新闻，包括OpenAI发布的ChatGPT图像2.0模型，生成文本和截图的能力显著提升；阿里巴巴推出Qwen 3.6 Max，转为...
【Rust日报】2026-05-01 Rust 原生数据表格组件 uiGrid 发布
Rust开发者推出了功能丰富的uiGrid数据表格组件，支持分组、过滤、排序等操作，具备树形视图和单元格编辑功能。该项目已开源，采用MIT许可证，支持自定...
DeepSeek V4 发布没炸场，却靠降价掀起革命？
DeepSeek V4 发布后，通过降价策略打破了高 Token 价格和订阅套餐的束缚，用户可按需付费，吸引了更多低频用户，改变了市场格局。
早报｜苹果：下季度内存成本压力将显著加大/宇树最便宜人形机器发布/5月1日高速车流或创历史纪录
iPhone 18 Pro预计将进行重大相机升级，配备可变光圈和新Siri模式，用户可通过AI服务提问。苹果毛利率创历史新高，但内存成本压力加大。三星Q1...