小红花·文摘

Qwen与清华团队的研究表明，在大模型强化学习中，仅使用20%的高熵token即可显著提升训练效果，优于使用全部token。这一发现挑战了传统的二八法则，指出低熵token对推理贡献有限，可能限制模型的探索能力。聚焦关键token使模型在泛化能力上表现出色，训练过程中的熵模式演变也强调了高熵token的重要性。