【强化学习与大模型后训练】04|Actor-Critic 与优势函数、GAE

💡 原文中文,约8900字,阅读约需21分钟。
📝

内容提要

REINFORCE方法通过回报加权优化不可微奖励,但在语言模型中方差过高。Actor-Critic方法将策略与价值函数分开训练,利用广义优势估计(GAE)在Monte-Carlo回报与时间差分(TD)引导之间平衡偏差和方差。Critic帮助构造优势估计,降低策略更新的方差。GAE通过加权多步TD残差,结合折扣因子B3和BB控制未来奖励的影响和优势估计的稳定性。

🎯

关键要点

  • REINFORCE方法通过回报或优势加权优化不可微奖励,但在语言模型中方差过高。

  • Actor-Critic方法将策略和价值函数分开训练,利用广义优势估计(GAE)平衡偏差和方差。

  • Critic帮助构造优势估计,降低策略更新的方差。

  • GAE通过加权多步TD残差,结合折扣因子控制未来奖励的影响和优势估计的稳定性。

  • Actor-Critic的基本结构包括Actor(策略网络)和Critic(价值函数),二者可以完全分开训练。

  • Monte-Carlo回报和时序差分(TD)方法各有优缺点,GAE在两者之间进行平衡。

  • GAE的优势估计通过指数权重加权多步TD残差,B3和BB分别控制未来奖励的折扣和优势估计的偏差-方差取舍。

  • Critic需要自己的监督信号,常用均方误差拟合回报目标。

  • 优势归一化可以稳定梯度尺度,减少不同难度样本间的影响。

  • Actor-Critic方法降低方差,但需要训练Critic,增加实现复杂度,并面临价值误差的风险。

🔎

延伸解读

Actor-Critic 方法的优势与挑战

Actor-Critic 方法通过将策略和价值函数分开训练,能够有效降低策略更新的方差。然而,这种方法也带来了额外的复杂性,尤其是在训练 Critic 时,可能会引入价值误差,影响策略的稳定性。因此,在实现时需要仔细调整参数,以平衡方差和偏差。

GAE 的灵活性与应用

广义优势估计(GAE)通过调节参数 B6 和 BB,提供了在 Monte-Carlo 回报和时序差分(TD)之间的灵活平衡。这种灵活性使得 GAE 在不同任务中都能适应,尤其是在语言模型的后训练中,能够有效处理长序列的奖励分布问题。

参数调节的重要性

在 Actor-Critic 方法中,B3 和 BB 的选择对训练结果有显著影响。过低的 B3 可能导致早期 token 对最终奖励的敏感度降低,而过高的 BB 则可能导致优势估计的方差上升。因此,在调参时需谨慎,以确保模型的稳定性和性能。

延伸问答

什么是Actor-Critic方法?

Actor-Critic方法将策略(Actor)和价值函数(Critic)分开训练,以降低策略更新的方差。

广义优势估计(GAE)如何平衡偏差和方差?

GAE通过加权多步TD残差,结合折扣因子控制未来奖励的影响,从而在Monte-Carlo回报和TD方法之间进行平衡。

Critic在Actor-Critic方法中扮演什么角色?

Critic负责估计当前策略下的状态价值,帮助构造优势估计,从而降低策略更新的方差。

REINFORCE方法与Actor-Critic方法的主要区别是什么?

REINFORCE方法通过回报加权优化不可微奖励,但方差过高,而Actor-Critic方法通过分开训练策略和价值函数来降低方差。

GAE中的参数B3和BB分别控制什么?

B3是折扣因子,控制未来奖励的权重;BB是估计器参数,控制优势估计时依赖多远的未来TD残差。

为什么在训练Critic时需要监督信号?

Critic需要监督信号来拟合回报目标,以提高优势估计的准确性,降低策略更新的方差。

🏷️

标签

➡️

继续阅读