一种在高级和低级学习中可证明高效的基于期权的算法
📝
内容提要
在 Hierarchical Reinforcement Learning 的框架下,本研究通过使用不同的时间抽象层次交替使用相关算法,提出了一种用于解决有限时间间隔问题的元算法,从而初步理解了高层和低层策略同时学习的实际场景。
🏷️
标签
➡️