Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
💡
原文中文,约3000字,阅读约需8分钟。
📝
内容提要
Qwen与清华团队的研究表明,在大模型强化学习中,仅使用20%的高熵token即可显著提升训练效果,优于使用全部token。这一发现挑战了传统的二八法则,指出低熵token对推理贡献有限,可能限制模型的探索能力。聚焦关键token使模型在泛化能力上表现出色,训练过程中的熵模式演变也强调了高熵token的重要性。
🎯
关键要点
- Qwen与清华团队的研究表明,仅使用20%的高熵token即可显著提升大模型强化学习的训练效果。
- 这一发现挑战了传统的二八法则,指出低熵token对推理贡献有限,可能限制模型的探索能力。
- 高熵token在链式思考推理中扮演着关键角色,能够帮助模型探索不同的推理路径。
- 在强化学习训练中,仅保留top 20%高熵token的策略梯度,显著提升了模型性能。
- 低熵token对推理能力的提升贡献微乎其微,甚至可能起到负面作用。
- 模型越大,仅用高熵token训练的优势越明显,32B模型的提升最大。
- 高熵token可能与模型的泛化能力密切相关,聚焦这些关键决策点有助于学习更本质的推理模式。
- RLVR训练过程中的熵模式演变显示,模型与base model在高熵token位置上的重叠率保持较高。
- 高熵token的灵活性可能是强化学习能泛化的关键,而监督微调则倾向于记忆和过拟合。
- 在强化学习与可验证奖励算法中,clip-higher方法能有效提升高熵少数标记的熵值。
❓
延伸问答
Qwen与清华团队的研究发现了什么重要的训练策略?
研究发现仅使用20%的高熵token可以显著提升大模型强化学习的训练效果,优于使用全部token。
为什么低熵token可能对模型的推理能力产生负面影响?
低熵token对推理能力的提升贡献微乎其微,甚至可能限制模型的探索能力,因为它们过于确定。
高熵token在推理过程中扮演什么角色?
高熵token通常作为逻辑连接器,帮助模型在推理中进行转折、递进或因果连接。
使用高熵token训练的模型在其他任务上表现如何?
仅用20%高熵token训练的模型在域外任务上表现优异,超越了使用全部token训练的版本。
这项研究如何挑战传统的二八法则?
研究表明,在大模型强化学习中,80%的低熵token不仅可以舍弃,甚至可能起副作用,挑战了传统的二八法则。
在强化学习训练中,如何验证高熵token的重要性?
通过实验发现,适度提高高熵token的温度能改善推理性能,而降低温度则会导致性能下降,验证了高熵token的重要性。
➡️