【强化学习与大模型后训练】03|策略梯度与 REINFORCE

💡 原文中文,约9200字,阅读约需22分钟。
📝

内容提要

本文讨论了策略梯度方法在语言模型训练中的应用,重点介绍了REINFORCE算法。通过log-derivative技巧,策略梯度能够优化期望回报,而无需对不可微奖励求导。文章还分析了高方差问题及其在长序列和稀疏奖励中的影响,并介绍了RLOO等现代改进方法,以降低方差并提高训练稳定性。

🎯

关键要点

  • 策略梯度方法不需要对环境求导,只需对采样动作的概率求导。

  • REINFORCE算法是策略梯度的基本形式,通过log-derivative技巧优化期望回报。

  • 高方差问题在长序列和稀疏奖励情况下尤为严重,影响训练稳定性。

  • 基线方法可以降低方差而不引入偏差,常用的基线是价值函数。

  • RLOO方法通过对同一prompt采样多条回答,利用相对优势估计来改善训练效果。

  • REINFORCE与SFT的主要区别在于样本来源和权重来源,前者依赖于当前策略的采样,后者依赖于固定的参考答案。

🔎

延伸解读

策略梯度的优势与局限

策略梯度方法在处理不可微奖励时展现出独特优势,尤其适用于语言模型训练。然而,其高方差问题在长序列和稀疏奖励情况下尤为明显,可能导致训练不稳定。因此,在实际应用中,需结合基线方法等技术来降低方差,提高训练效果。

REINFORCE与SFT的比较

REINFORCE算法与SFT(监督微调)在样本来源和权重来源上存在显著差异。REINFORCE依赖于当前策略的采样,强调探索,而SFT则基于固定的参考答案,主要用于模仿学习。这种差异使得REINFORCE在动态环境中更具灵活性,但也增加了训练的复杂性。

现代改进方法的必要性

随着语言模型的复杂性增加,传统的REINFORCE算法面临高方差和训练不稳定的问题。现代改进方法如RLOO和PPO通过引入相对优势估计和基线技术,旨在降低方差并提高训练的稳定性。这些方法的应用对于提升大模型的性能至关重要。

延伸问答

什么是策略梯度方法?

策略梯度方法是一种优化策略的方法,它不需要对环境求导,而是对采样动作的概率进行求导。

REINFORCE算法的主要特点是什么?

REINFORCE算法是策略梯度的基本形式,通过log-derivative技巧优化期望回报,能够处理不可微的奖励。

高方差问题在长序列和稀疏奖励情况下的影响是什么?

高方差问题在长序列和稀疏奖励情况下尤为严重,会影响训练的稳定性和效果。

基线方法如何降低方差?

基线方法通过减去不依赖于当前动作的基线,能够降低方差而不引入偏差,常用的基线是价值函数。

RLOO方法是如何改善训练效果的?

RLOO方法通过对同一prompt采样多条回答,利用相对优势估计来改善训练效果,降低方差。

REINFORCE与SFT的主要区别是什么?

REINFORCE依赖于当前策略的采样,而SFT依赖于固定的参考答案,样本来源和权重来源不同。

🏷️

标签

➡️

继续阅读