物理知情模型与混合规划用于高效的 Dyna 风格增强学习

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种应用强化学习(RL)解决现实世界问题的方法,通过学习基于物理知识的模型提高样本效率,并使用虚拟轨迹进行学习。同时,提出了混合规划策略,将学习到的策略、Q 函数和模型结合起来,提高规划的时间效率。实验证明该方法在样本效率、时间效率和性能方面优于现有方法。

🎯

关键要点

  • 应用强化学习(RL)于现实世界需解决渐进性能、样本效率和推理时间之间的平衡问题。
  • 利用对系统动力学的部分物理知识,演示如何应对渐进性能、样本效率和推理时间的三重挑战。
  • 学习基于物理知识的模型以提高样本效率,并通过该模型生成虚拟轨迹。
  • 从虚拟轨迹中学习无模型策略和 Q 函数。
  • 提出混合规划策略,将学习到的策略、Q 函数和模型结合,以提高规划的时间效率。
  • 实验证明该方法在样本效率、时间效率和性能方面优于现有方法。
➡️

继续阅读