小红花·文摘

本文提出了一种结合模仿学习和强化学习的层次性指导算法框架，旨在解决奖励稀疏和长期决策问题。通过数据驱动方法生成抽象状态，提高了多任务决策的效率和效果。此外，研究探讨了基于扩散模型的生成序列模型，验证了其在长期规划和视觉控制中的优势，显著提升了规划速度和泛化能力。