【强化学习与大模型后训练】03|策略梯度与 REINFORCE
内容提要
本文讨论了策略梯度方法在语言模型训练中的应用,重点介绍了REINFORCE算法。通过log-derivative技巧,策略梯度能够优化期望回报,而无需对不可微奖励求导。文章还分析了高方差问题及其在长序列和稀疏奖励中的影响,并介绍了RLOO等现代改进方法,以降低方差并提高训练稳定性。
关键要点
-
策略梯度方法不需要对环境求导,只需对采样动作的概率求导。
-
REINFORCE算法是策略梯度的基本形式,通过log-derivative技巧优化期望回报。
-
高方差问题在长序列和稀疏奖励情况下尤为严重,影响训练稳定性。
-
基线方法可以降低方差而不引入偏差,常用的基线是价值函数。
-
RLOO方法通过对同一prompt采样多条回答,利用相对优势估计来改善训练效果。
-
REINFORCE与SFT的主要区别在于样本来源和权重来源,前者依赖于当前策略的采样,后者依赖于固定的参考答案。
延伸解读
策略梯度的优势与局限
策略梯度方法在处理不可微奖励时展现出独特优势,尤其适用于语言模型训练。然而,其高方差问题在长序列和稀疏奖励情况下尤为明显,可能导致训练不稳定。因此,在实际应用中,需结合基线方法等技术来降低方差,提高训练效果。
REINFORCE与SFT的比较
REINFORCE算法与SFT(监督微调)在样本来源和权重来源上存在显著差异。REINFORCE依赖于当前策略的采样,强调探索,而SFT则基于固定的参考答案,主要用于模仿学习。这种差异使得REINFORCE在动态环境中更具灵活性,但也增加了训练的复杂性。
现代改进方法的必要性
随着语言模型的复杂性增加,传统的REINFORCE算法面临高方差和训练不稳定的问题。现代改进方法如RLOO和PPO通过引入相对优势估计和基线技术,旨在降低方差并提高训练的稳定性。这些方法的应用对于提升大模型的性能至关重要。
延伸问答
什么是策略梯度方法?
策略梯度方法是一种优化策略的方法,它不需要对环境求导,而是对采样动作的概率进行求导。
REINFORCE算法的主要特点是什么?
REINFORCE算法是策略梯度的基本形式,通过log-derivative技巧优化期望回报,能够处理不可微的奖励。
高方差问题在长序列和稀疏奖励情况下的影响是什么?
高方差问题在长序列和稀疏奖励情况下尤为严重,会影响训练的稳定性和效果。
基线方法如何降低方差?
基线方法通过减去不依赖于当前动作的基线,能够降低方差而不引入偏差,常用的基线是价值函数。
RLOO方法是如何改善训练效果的?
RLOO方法通过对同一prompt采样多条回答,利用相对优势估计来改善训练效果,降低方差。
REINFORCE与SFT的主要区别是什么?
REINFORCE依赖于当前策略的采样,而SFT依赖于固定的参考答案,样本来源和权重来源不同。