REBEL: 强化学习人类反馈中的回报过度优化问题的基于正则化的解决方案
📝
内容提要
通过使用 REBEL 算法,我们提出了一种基于人类反馈的样本高效奖励正则化的机器人强化学习方法,并通过实验证明,REBEL 方法在样本效率方面比 PEBBLE 和 PEBBLE+SURF 等现有方法取得了 70% 的提升。
🏷️
标签
➡️