Meta的研究揭示了强化学习(RL)训练中参数更新稀疏的现象,并提出了三种理论来解释其机制。尽管RL训练显著提升性能,但仅有少量参数被修改,主要由于KL锚定、模型几何和精度过滤等因素。研究表明,RL与监督微调(SFT)在参数优化区域存在显著差异,为RL训练算法设计提供了新思路。
完成下面两步后,将自动完成登录并继续当前操作。