小红花·文摘

通过学习动态感知奖励函数，可以提高偏好基础增强学习的采样效率。使用50个偏好标签的方法可以达到与使用500个偏好标签相同的性能，并恢复了83%和66%的地面真实奖励策略性能。这些结果证明了学习动态感知奖励模型的好处。