用分层潜在技能提升自主驾驶的离线强化学习

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

该研究提出了一种新的离线强化学习代理,通过减去基于奖励的勘探法的探索奖励,使策略保持在数据集的支持范围内,并连接到对学习策略向数据集的普遍约束的正则化。该代理通过基于变分自动编码器的预测误差的奖励进行实例化,并在一组连续控制运动和操作任务的状态下证明了其竞争力。

🎯

关键要点

  • 提出了一种新的离线强化学习代理。
  • 通过减去基于奖励的勘探法的探索奖励,使策略保持在数据集的支持范围内。
  • 将该方法与对学习策略向数据集的普遍约束的正则化相连接。
  • 代理通过基于变分自动编码器的预测误差的奖励进行实例化。
  • 在一组连续控制运动和操作任务的状态下证明了该代理的竞争力。
➡️

继续阅读