具有动力学感知奖励的样本高效偏好强化学习

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

通过学习动态感知奖励函数,可以提高偏好基础增强学习的采样效率。通过迭代学习动态感知的状态 - 行动表示并从中引导基于偏好的奖励函数,可以实现更快的策略学习和更好的最终策略性能。在四足行走、行走者行走和猎豹奔跑中,通过50个偏好标签,性能与现有方法的500个偏好标签相同,并恢复了83%和66%的地面真实奖励策略性能,而它们分别只有38%和21%。这些性能提升证明了明确学习动态感知奖励模型的好处。

🎯

关键要点

  • 通过学习动态感知奖励函数,提高偏好基础增强学习的采样效率。

  • 迭代学习动态感知的状态 - 行动表示,引导基于偏好的奖励函数,实现更快的策略学习。

  • 在四足行走、行走者行走和猎豹奔跑中,使用50个偏好标签实现与500个偏好标签相同的性能。

  • 恢复83%和66%的地面真实奖励策略性能,而现有方法分别只有38%和21%。

  • 这些性能提升证明了明确学习动态感知奖励模型的好处。

➡️

继续阅读