土法炼钢兴趣小组的博客 ·

【强化学习与大模型后训练】02｜MDP、回报与贝尔曼方程

💡 原文中文，约8500字，阅读约需21分钟。

📝

内容提要

本文讨论了后训练中的强化学习，重点介绍马尔可夫决策过程（MDP）、轨迹、回报、策略、价值函数和优势函数。强调了在语言模型生成中，奖励通常在序列末尾出现，导致信用分配和稀疏奖励问题。通过定义和贝尔曼期望方程，探讨了将语言生成视为MDP及其策略优化的挑战。

🎯

🔎

马尔可夫决策过程（MDP）是强化学习的基础，强调状态、动作和奖励之间的关系。理解MDP的五个组成部分（状态集合、动作集合、转移概率、奖励函数和折扣因子）对于后续的策略优化至关重要。特别是在语言模型中，状态的定义需要包含历史信息，以确保马尔可夫性成立。

在后训练的强化学习中，奖励通常只在序列的末尾出现，这导致了信用分配和稀疏奖励的问题。模型在生成每个token时缺乏即时反馈，可能导致策略梯度的方差较高。理解这一点有助于开发更有效的奖励模型，以改善学习效果。

优势函数在策略优化中起着重要作用，它衡量某个动作相对于平均策略的优劣。通过使用优势估计，可以减少策略梯度的方差，从而提高学习的稳定性。在实际应用中，优势函数的设计需要考虑不同prompt的奖励尺度，以避免混淆奖励的难度。

❓

马尔可夫决策过程（MDP）由状态集合、动作集合、转移概率、奖励函数和折扣因子组成，核心假设是马尔可夫性。

奖励是某一步收到的反馈，而回报是从当前状态开始的未来奖励的总和。

策略定义了在给定状态下选择动作的概率，语言模型的策略是基于已生成的token和prompt的条件概率分布。

贝尔曼期望方程通过递归分解回报，提供了状态价值和动作价值的计算方法。

优势函数衡量某个动作相对于平均策略的优劣，可以用来减少方差，提高策略优化的效率。

在语言生成中，奖励通常在序列末尾出现，这导致了信用分配和稀疏奖励的问题。

🏷️