基于偏好的离线强化学习中的列表奖励估计
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文研究了基于偏好的强化学习中初始奖励模型的高度变异性问题,并提出了一种数据驱动的奖励初始化方法,该方法不会增加人在环中的额外成本,同时只会对 PbRL 代理造成可忽略的成本,通过该方法初始化的奖励模型在状态空间中是均匀的,这减少了多次运行中方法性能的变异性,并且相对于其它初始方法提高了方法的整体性能。
🎯
关键要点
- 研究了基于偏好的强化学习中初始奖励模型的高度变异性问题。
- 提出了一种数据驱动的奖励初始化方法。
- 该方法不会增加人在环中的额外成本。
- 对 PbRL 代理造成的成本可忽略不计。
- 初始化的奖励模型在状态空间中是均匀的。
- 减少了多次运行中方法性能的变异性。
- 相对于其它初始方法,提高了方法的整体性能。
➡️