本文提出了一种新的方法来解决以MDP建模的环境控制器设计问题,通过DRL获取低级策略并应用反应合成获取高级规划器。该方法避免了模型蒸馏步骤,解决了DRL中稀疏奖励的问题,并实现了低级策略的可重用性。通过案例研究展示了在移动障碍物中的智能体导航的可行性。
完成下面两步后,将自动完成登录并继续当前操作。