多类型偏好学习:利用均等偏好的偏好基础强化学ä¹
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了现有偏好基础强化学习(PBRL)方法忽视教师可能选择均等偏好的问题,导致对任务理解的不足。通过引入均等偏好学习任务并提出新方法多类型偏好学习(MTPL),同时从均等偏好和显性偏好中学习,从而提高对教师反馈的理解和反馈效率。实验结果表明,MTPL使PBRL在多个人类反馈任务中表现出更强的学习能力。
通过学习动态感知奖励函数,可以提高偏好基础增强学习的采样效率。使用50个偏好标签的方法在四足行走、行走者行走和猎豹奔跑中达到与使用500个偏好标签相同的性能,并恢复了83%和66%的地面真实奖励策略性能。这些结果证明了学习动态感知奖励模型的好处。