基于偏好的离线强化学习中的列表奖励估计

本研究解决了在偏好强化学习中如何精确设计奖励函数的问题，特别是与人类意图的对齐。我们提出了一种新的离线偏好强化学习方法——列表奖励估计（LiRE），通过构建轨迹的排序列表来利用二阶偏好信息。实验结果表明，LiRE超越了现有的最先进基线，在反馈预算有限的情况下仍表现出色，并在反馈数量和噪声方面展现出鲁棒性。

本文研究了基于偏好的强化学习中初始奖励模型的高度变异性问题，并提出了一种数据驱动的奖励初始化方法，该方法不会增加人在环中的额外成本，同时只会对 PbRL 代理造成可忽略的成本，通过该方法初始化的奖励模型在状态空间中是均匀的，这减少了多次运行中方法性能的变异性，并且相对于其它初始方法提高了方法的整体性能。

偏好的强化学习奖励初始化方法成本数据驱动状态空间