土法炼钢兴趣小组的博客 ·

【强化学习与大模型后训练】03｜策略梯度与 REINFORCE

💡 原文中文，约9200字，阅读约需22分钟。

📝

内容提要

本文讨论了策略梯度方法在语言模型训练中的应用，重点介绍了REINFORCE算法。通过log-derivative技巧，策略梯度能够优化期望回报，而无需对不可微奖励求导。文章还分析了高方差问题及其在长序列和稀疏奖励中的影响，并介绍了RLOO等现代改进方法，以降低方差并提高训练稳定性。

🎯

🔎

策略梯度方法在处理不可微奖励时展现出独特优势，尤其适用于语言模型训练。然而，其高方差问题在长序列和稀疏奖励情况下尤为明显，可能导致训练不稳定。因此，在实际应用中，需结合基线方法等技术来降低方差，提高训练效果。

REINFORCE算法与SFT（监督微调）在样本来源和权重来源上存在显著差异。REINFORCE依赖于当前策略的采样，强调探索，而SFT则基于固定的参考答案，主要用于模仿学习。这种差异使得REINFORCE在动态环境中更具灵活性，但也增加了训练的复杂性。

随着语言模型的复杂性增加，传统的REINFORCE算法面临高方差和训练不稳定的问题。现代改进方法如RLOO和PPO通过引入相对优势估计和基线技术，旨在降低方差并提高训练的稳定性。这些方法的应用对于提升大模型的性能至关重要。

❓

策略梯度方法是一种优化策略的方法，它不需要对环境求导，而是对采样动作的概率进行求导。

REINFORCE算法是策略梯度的基本形式，通过log-derivative技巧优化期望回报，能够处理不可微的奖励。

高方差问题在长序列和稀疏奖励情况下尤为严重，会影响训练的稳定性和效果。

基线方法通过减去不依赖于当前动作的基线，能够降低方差而不引入偏差，常用的基线是价值函数。

RLOO方法通过对同一prompt采样多条回答，利用相对优势估计来改善训练效果，降低方差。

REINFORCE依赖于当前策略的采样，而SFT依赖于固定的参考答案，样本来源和权重来源不同。

🏷️