小红花·文摘

本文探讨了动态感知奖励函数在偏好基础增强学习中的应用，显著提高了采样效率和策略学习速度。在多种机器人任务中，使用50个偏好标签的性能与500个标签相当，并恢复了较高的真实奖励策略性能。此外，提出了通过人机交互和自训练方法来优化奖励模型，克服了偏好强化学习中的挑战，提升了学习效率和鲁棒性。

通过对齐的经验估计实现高效的基于偏好的强化学习

BriefGPT - AI 论文速递 ·

通过学习动态感知奖励函数，可以提高偏好基础增强学习的采样效率。通过迭代学习动态感知的状态 - 行动表示并从中引导基于偏好的奖励函数，可以实现更快的策略学习和更好的最终策略性能。在四足行走、行走者行走和猎豹奔跑中，通过50个偏好标签，性能与现有方法的500个偏好标签相同，并恢复了83%和66%的地面真实奖励策略性能，而它们分别只有38%和21%。这些性能提升证明了明确学习动态感知奖励模型的好处。

具有动力学感知奖励的样本高效偏好强化学习

BriefGPT - AI 论文速递 ·