本文介绍了一种应用强化学习(RL)解决现实世界问题的方法,通过学习基于物理知识的模型提高样本效率,并使用虚拟轨迹进行学习。同时,提出了混合规划策略,将学习到的策略、Q 函数和模型结合起来,提高规划的时间效率。实验证明该方法在样本效率、时间效率和性能方面优于现有方法。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: