【强化学习与大模型后训练】04|Actor-Critic 与优势函数、GAE
内容提要
REINFORCE方法通过回报加权优化不可微奖励,但在语言模型中方差过高。Actor-Critic方法将策略与价值函数分开训练,利用广义优势估计(GAE)在Monte-Carlo回报与时间差分(TD)引导之间平衡偏差和方差。Critic帮助构造优势估计,降低策略更新的方差。GAE通过加权多步TD残差,结合折扣因子B3和BB控制未来奖励的影响和优势估计的稳定性。
关键要点
-
REINFORCE方法通过回报或优势加权优化不可微奖励,但在语言模型中方差过高。
-
Actor-Critic方法将策略和价值函数分开训练,利用广义优势估计(GAE)平衡偏差和方差。
-
Critic帮助构造优势估计,降低策略更新的方差。
-
GAE通过加权多步TD残差,结合折扣因子控制未来奖励的影响和优势估计的稳定性。
-
Actor-Critic的基本结构包括Actor(策略网络)和Critic(价值函数),二者可以完全分开训练。
-
Monte-Carlo回报和时序差分(TD)方法各有优缺点,GAE在两者之间进行平衡。
-
GAE的优势估计通过指数权重加权多步TD残差,B3和BB分别控制未来奖励的折扣和优势估计的偏差-方差取舍。
-
Critic需要自己的监督信号,常用均方误差拟合回报目标。
-
优势归一化可以稳定梯度尺度,减少不同难度样本间的影响。
-
Actor-Critic方法降低方差,但需要训练Critic,增加实现复杂度,并面临价值误差的风险。
延伸解读
Actor-Critic 方法的优势与挑战
Actor-Critic 方法通过将策略和价值函数分开训练,能够有效降低策略更新的方差。然而,这种方法也带来了额外的复杂性,尤其是在训练 Critic 时,可能会引入价值误差,影响策略的稳定性。因此,在实现时需要仔细调整参数,以平衡方差和偏差。
GAE 的灵活性与应用
广义优势估计(GAE)通过调节参数 B6 和 BB,提供了在 Monte-Carlo 回报和时序差分(TD)之间的灵活平衡。这种灵活性使得 GAE 在不同任务中都能适应,尤其是在语言模型的后训练中,能够有效处理长序列的奖励分布问题。
参数调节的重要性
在 Actor-Critic 方法中,B3 和 BB 的选择对训练结果有显著影响。过低的 B3 可能导致早期 token 对最终奖励的敏感度降低,而过高的 BB 则可能导致优势估计的方差上升。因此,在调参时需谨慎,以确保模型的稳定性和性能。
延伸问答
什么是Actor-Critic方法?
Actor-Critic方法将策略(Actor)和价值函数(Critic)分开训练,以降低策略更新的方差。
广义优势估计(GAE)如何平衡偏差和方差?
GAE通过加权多步TD残差,结合折扣因子控制未来奖励的影响,从而在Monte-Carlo回报和TD方法之间进行平衡。
Critic在Actor-Critic方法中扮演什么角色?
Critic负责估计当前策略下的状态价值,帮助构造优势估计,从而降低策略更新的方差。
REINFORCE方法与Actor-Critic方法的主要区别是什么?
REINFORCE方法通过回报加权优化不可微奖励,但方差过高,而Actor-Critic方法通过分开训练策略和价值函数来降低方差。
GAE中的参数B3和BB分别控制什么?
B3是折扣因子,控制未来奖励的权重;BB是估计器参数,控制优势估计时依赖多远的未来TD残差。
为什么在训练Critic时需要监督信号?
Critic需要监督信号来拟合回报目标,以提高优势估计的准确性,降低策略更新的方差。