Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好

💡 原文中文,约3000字,阅读约需8分钟。
📝

内容提要

Qwen与清华团队的研究表明,在大模型强化学习中,仅使用20%的高熵token即可显著提升训练效果,优于使用全部token。这一发现挑战了传统的二八法则,指出低熵token对推理贡献有限,可能限制模型的探索能力。聚焦关键token使模型在泛化能力上表现出色,训练过程中的熵模式演变也强调了高熵token的重要性。

🎯

关键要点

  • Qwen与清华团队的研究表明,仅使用20%的高熵token即可显著提升大模型强化学习的训练效果。
  • 这一发现挑战了传统的二八法则,指出低熵token对推理贡献有限,可能限制模型的探索能力。
  • 高熵token在链式思考推理中扮演着关键角色,能够帮助模型探索不同的推理路径。
  • 在强化学习训练中,仅保留top 20%高熵token的策略梯度,显著提升了模型性能。
  • 低熵token对推理能力的提升贡献微乎其微,甚至可能起到负面作用。
  • 模型越大,仅用高熵token训练的优势越明显,32B模型的提升最大。
  • 高熵token可能与模型的泛化能力密切相关,聚焦这些关键决策点有助于学习更本质的推理模式。
  • RLVR训练过程中的熵模式演变显示,模型与base model在高熵token位置上的重叠率保持较高。
  • 高熵token的灵活性可能是强化学习能泛化的关键,而监督微调则倾向于记忆和过拟合。
  • 在强化学习与可验证奖励算法中,clip-higher方法能有效提升高熵少数标记的熵值。

延伸问答

Qwen与清华团队的研究发现了什么重要的训练策略?

研究发现仅使用20%的高熵token可以显著提升大模型强化学习的训练效果,优于使用全部token。

为什么低熵token可能对模型的推理能力产生负面影响?

低熵token对推理能力的提升贡献微乎其微,甚至可能限制模型的探索能力,因为它们过于确定。

高熵token在推理过程中扮演什么角色?

高熵token通常作为逻辑连接器,帮助模型在推理中进行转折、递进或因果连接。

使用高熵token训练的模型在其他任务上表现如何?

仅用20%高熵token训练的模型在域外任务上表现优异,超越了使用全部token训练的版本。

这项研究如何挑战传统的二八法则?

研究表明,在大模型强化学习中,80%的低熵token不仅可以舍弃,甚至可能起副作用,挑战了传统的二八法则。

在强化学习训练中,如何验证高熵token的重要性?

通过实验发现,适度提高高熵token的温度能改善推理性能,而降低温度则会导致性能下降,验证了高熵token的重要性。

➡️

继续阅读