【强化学习与大模型后训练】02|MDP、回报与贝尔曼方程

💡 原文中文,约8500字,阅读约需21分钟。
📝

内容提要

本文讨论了后训练中的强化学习,重点介绍马尔可夫决策过程(MDP)、轨迹、回报、策略、价值函数和优势函数。强调了在语言模型生成中,奖励通常在序列末尾出现,导致信用分配和稀疏奖励问题。通过定义和贝尔曼期望方程,探讨了将语言生成视为MDP及其策略优化的挑战。

🎯

关键要点

  • 后训练中的强化学习依赖于马尔可夫决策过程(MDP)、轨迹、回报、策略、价值函数和优势函数等基本概念。

  • 马尔可夫决策过程(MDP)由状态集合、动作集合、转移概率、奖励函数和折扣因子组成,核心假设是马尔可夫性。

  • 轨迹是强化学习中一系列状态、动作和奖励的序列,回报是从当前状态开始的未来奖励的总和。

  • 策略定义了在给定状态下选择动作的概率,语言模型的策略是基于已生成的token和prompt的条件概率分布。

  • 价值函数和动作价值函数分别表示在某个状态下继续行动的期望回报和在某个状态下执行特定动作后的期望回报。

  • 优势函数衡量某个动作相对于平均策略的优劣,策略优化时可以使用优势估计来减少方差。

  • 贝尔曼期望方程通过递归分解回报,提供了状态价值和动作价值的计算方法。

  • 在语言生成中,状态是prompt加已生成token,动作是下一个token,奖励通常在序列末尾出现,导致信用分配和稀疏奖励问题。

🔎

延伸解读

马尔可夫决策过程的核心概念

马尔可夫决策过程(MDP)是强化学习的基础,强调状态、动作和奖励之间的关系。理解MDP的五个组成部分(状态集合、动作集合、转移概率、奖励函数和折扣因子)对于后续的策略优化至关重要。特别是在语言模型中,状态的定义需要包含历史信息,以确保马尔可夫性成立。

奖励稀疏性对学习的影响

在后训练的强化学习中,奖励通常只在序列的末尾出现,这导致了信用分配和稀疏奖励的问题。模型在生成每个token时缺乏即时反馈,可能导致策略梯度的方差较高。理解这一点有助于开发更有效的奖励模型,以改善学习效果。

优势函数的应用

优势函数在策略优化中起着重要作用,它衡量某个动作相对于平均策略的优劣。通过使用优势估计,可以减少策略梯度的方差,从而提高学习的稳定性。在实际应用中,优势函数的设计需要考虑不同prompt的奖励尺度,以避免混淆奖励的难度。

延伸问答

什么是马尔可夫决策过程(MDP)?

马尔可夫决策过程(MDP)由状态集合、动作集合、转移概率、奖励函数和折扣因子组成,核心假设是马尔可夫性。

在强化学习中,回报和奖励有什么区别?

奖励是某一步收到的反馈,而回报是从当前状态开始的未来奖励的总和。

如何定义策略在强化学习中的作用?

策略定义了在给定状态下选择动作的概率,语言模型的策略是基于已生成的token和prompt的条件概率分布。

贝尔曼期望方程的核心思想是什么?

贝尔曼期望方程通过递归分解回报,提供了状态价值和动作价值的计算方法。

优势函数在策略优化中有什么作用?

优势函数衡量某个动作相对于平均策略的优劣,可以用来减少方差,提高策略优化的效率。

在语言生成中,奖励通常在什么情况下出现?

在语言生成中,奖励通常在序列末尾出现,这导致了信用分配和稀疏奖励的问题。

🏷️

标签

➡️

继续阅读