Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好

超越二八法则

Qwen与清华团队的研究表明,在大模型强化学习中,仅使用20%的高熵token即可显著提升训练效果,优于使用全部token。这一发现挑战了传统的二八法则,指出低熵token对推理贡献有限,可能限制模型的探索能力。聚焦关键token使模型在泛化能力上表现出色,训练过程中的熵模式演变也强调了高熵token的重要性。

原文中文,约3000字,阅读约需8分钟。发表于:
阅读原文