Multi-Step Alignment as Markov Games: An Optimistic Online Gradient Descent Method with Convergence Guarantees
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文提出了一种将对齐问题建模为马尔可夫游戏的方法,解决了人类反馈下的强化学习在多轮对话中的应用限制。新方法Multi-step Preference Optimization (MPO)基于乐观在线梯度下降算法,理论分析表明其能有效收敛到近似纳什均衡,并在实验中验证了其有效性。
🎯
关键要点
-
本文提出了一种将对齐问题建模为双人常数和马尔可夫游戏的方法。
-
新方法Multi-step Preference Optimization (MPO)基于自然行为者-评论员框架构建。
-
提出了基于乐观在线梯度下降算法的OMPO。
-
理论分析表明OMPO可以有效收敛到近似纳什均衡。
-
实验验证了MPO在多轮对话和数学推理数据集上的有效性。
➡️