Qwen与清华团队的研究表明,在大模型强化学习中,仅使用20%的高熵token即可显著提升训练效果,优于使用全部token。这一发现挑战了传统的二八法则,指出低熵token对推理贡献有限,可能限制模型的探索能力。聚焦关键token使模型在泛化能力上表现出色,训练过程中的熵模式演变也强调了高熵token的重要性。
完成下面两步后,将自动完成登录并继续当前操作。