MEReQ:最大熵残差 Q 逆强化学习用于样本高效对齐
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文提出了针对具有人类反馈的强化学习的理论框架,研究发现最大似然估计器在Bradley-Terry-Luce模型和Plackett-Luce模型下都能收敛。在基于学习的奖赏模型的策略时,MLE失败,而悲观的MLE提供了改进的性能策略。此外,真实MLE和替代MLE在PL模型下都会收敛,真实MLE渐近地更有效。这些结果验证了现有RLHF算法在InstructGPT上的实证成功,并为算法设计提供了新的见解。本文还统一了RLHF问题和max-entropy Inverse Reinforcement Learning问题,并为max-entropy IRL提供了第一个样本复杂度上界。
🎯
关键要点
- 提出了针对具有人类反馈的强化学习 (RLHF) 的理论框架。
- 最大似然估计器 (MLE) 在 Bradley-Terry-Luce (BTL) 模型和 Plackett-Luce (PL) 模型下收敛。
- 在基于学习的奖赏模型的策略时,MLE 失败,悲观的 MLE 提供了改进的性能策略。
- 真实 MLE 和替代 MLE 在 PL 模型下都会收敛,真实 MLE 渐近地更有效。
- 验证了现有 RLHF 算法在 InstructGPT 上的实证成功,并为算法设计提供了新的见解。
- 统一了 RLHF 问题和 max-entropy 逆强化学习 (IRL) 问题。
- 为 max-entropy IRL 提供了第一个样本复杂度上界。
➡️