通过学习的时间抽象在随机环境中的可扩展决策制定

📝

内容提要

本研究解决了高维连续动作空间中的序列决策问题,特别是随机环境中存在的计算挑战。提出的L-MAP方法通过学习一组时间扩展的宏观动作,有效降低了动作维度,并使用蒙特卡洛树搜索来考虑环境和行为策略中的随机性。实验证明L-MAP在多种任务中显著超越现有的基于模型的方法,并在复杂的随机环境中实现高效决策。

➡️

继续阅读