Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好 超越二八法则 Qwen与清华团队的研究表明,在大模型强化学习中,仅使用20%的高熵token即可显著提升训练效果,优于使用全部token。这一发现挑战了传统的二八法则,指出低熵token对推理贡献有限,可能限制模型的探索能力。聚焦关键token使模型在泛化能力上表现出色,训练过程中的熵模式演变也强调了高熵token的重要性。 qwen 低熵token 大模型 强化学习 泛化能力 高熵token