基于轨迹的稀疏奖励策略优化

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

利用离线演示轨迹的强化学习方法,通过最大均值差异(MMD)计算轨迹距离并将策略优化视为受距离限制的优化问题,从离线演示学习到的形状奖励函数实现了与离线演示相匹配的状态-动作访问边缘分布,提供了更快且更高效的在线强化学习方法。

🎯

关键要点

  • 利用离线演示轨迹的强化学习方法
  • 通过最大均值差异(MMD)计算轨迹距离
  • 将策略优化视为受距离限制的优化问题
  • 从离线演示学习到的形状奖励函数
  • 实现与离线演示相匹配的状态-动作访问边缘分布
  • 在稀疏奖励环境下提供更快且更高效的在线强化学习方法
➡️

继续阅读