一种在高级和低级学习中可证明高效的基于期权的算法

📝

内容提要

在 Hierarchical Reinforcement Learning 的框架下,本研究通过使用不同的时间抽象层次交替使用相关算法,提出了一种用于解决有限时间间隔问题的元算法,从而初步理解了高层和低层策略同时学习的实际场景。

🏷️

标签

➡️

继续阅读