小红花·文摘

Meta的研究揭示了强化学习（RL）训练中参数更新稀疏的现象，并提出了三种理论来解释其机制。尽管RL训练显著提升性能，但仅有少量参数被修改，主要由于KL锚定、模型几何和精度过滤等因素。研究表明，RL与监督微调（SFT）在参数优化区域存在显著差异，为RL训练算法设计提供了新思路。