土法炼钢兴趣小组的博客 ·

【强化学习与大模型后训练】04｜Actor-Critic 与优势函数、GAE

💡 原文中文，约8900字，阅读约需21分钟。

📝

内容提要

REINFORCE方法通过回报加权优化不可微奖励，但在语言模型中方差过高。Actor-Critic方法将策略与价值函数分开训练，利用广义优势估计（GAE）在Monte-Carlo回报与时间差分（TD）引导之间平衡偏差和方差。Critic帮助构造优势估计，降低策略更新的方差。GAE通过加权多步TD残差，结合折扣因子B3和BB控制未来奖励的影响和优势估计的稳定性。

🎯

关键要点

REINFORCE方法通过回报或优势加权优化不可微奖励，但在语言模型中方差过高。
Actor-Critic方法将策略和价值函数分开训练，利用广义优势估计（GAE）平衡偏差和方差。
Critic帮助构造优势估计，降低策略更新的方差。
GAE通过加权多步TD残差，结合折扣因子控制未来奖励的影响和优势估计的稳定性。
Actor-Critic的基本结构包括Actor（策略网络）和Critic（价值函数），二者可以完全分开训练。
Monte-Carlo回报和时序差分（TD）方法各有优缺点，GAE在两者之间进行平衡。
GAE的优势估计通过指数权重加权多步TD残差，B3和BB分别控制未来奖励的折扣和优势估计的偏差-方差取舍。
Critic需要自己的监督信号，常用均方误差拟合回报目标。
优势归一化可以稳定梯度尺度，减少不同难度样本间的影响。
Actor-Critic方法降低方差，但需要训练Critic，增加实现复杂度，并面临价值误差的风险。

🔎

延伸解读

Actor-Critic 方法的优势与挑战

Actor-Critic 方法通过将策略和价值函数分开训练，能够有效降低策略更新的方差。然而，这种方法也带来了额外的复杂性，尤其是在训练 Critic 时，可能会引入价值误差，影响策略的稳定性。因此，在实现时需要仔细调整参数，以平衡方差和偏差。

GAE 的灵活性与应用

广义优势估计（GAE）通过调节参数 B6 和 BB，提供了在 Monte-Carlo 回报和时序差分（TD）之间的灵活平衡。这种灵活性使得 GAE 在不同任务中都能适应，尤其是在语言模型的后训练中，能够有效处理长序列的奖励分布问题。

参数调节的重要性

在 Actor-Critic 方法中，B3 和 BB 的选择对训练结果有显著影响。过低的 B3 可能导致早期 token 对最终奖励的敏感度降低，而过高的 BB 则可能导致优势估计的方差上升。因此，在调参时需谨慎，以确保模型的稳定性和性能。

❓

延伸问答

什么是Actor-Critic方法？

Actor-Critic方法将策略（Actor）和价值函数（Critic）分开训练，以降低策略更新的方差。

广义优势估计（GAE）如何平衡偏差和方差？

GAE通过加权多步TD残差，结合折扣因子控制未来奖励的影响，从而在Monte-Carlo回报和TD方法之间进行平衡。

Critic在Actor-Critic方法中扮演什么角色？

Critic负责估计当前策略下的状态价值，帮助构造优势估计，从而降低策略更新的方差。

REINFORCE方法与Actor-Critic方法的主要区别是什么？

REINFORCE方法通过回报加权优化不可微奖励，但方差过高，而Actor-Critic方法通过分开训练策略和价值函数来降低方差。

GAE中的参数B3和BB分别控制什么？

B3是折扣因子，控制未来奖励的权重；BB是估计器参数，控制优势估计时依赖多远的未来TD残差。

为什么在训练Critic时需要监督信号？

Critic需要监督信号来拟合回报目标，以提高优势估计的准确性，降低策略更新的方差。

🏷️