小红花·文摘

本文提出了一种新的方法来解决以MDP建模的环境控制器设计问题，通过DRL获取低级策略并应用反应合成获取高级规划器。该方法避免了模型蒸馏步骤，解决了DRL中稀疏奖励的问题，并实现了低级策略的可重用性。通过案例研究展示了在移动障碍物中的智能体导航的可行性。