Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

超越二八法则

Qwen与清华团队的研究表明，在大模型强化学习中，仅使用20%的高熵token即可显著提升训练效果，优于使用全部token。这一发现挑战了传统的二八法则，指出低熵token对推理贡献有限，可能限制模型的探索能力。聚焦关键token使模型在泛化能力上表现出色，训练过程中的熵模式演变也强调了高熵token的重要性。

qwen 低熵token 大模型强化学习泛化能力高熵token