离线强化学习中的扩散模型作为高效规划器

通过将扩散模型的采样过程分解为两个解耦的子过程，本文提出了 Trajectory Diffuser 方法，利用更快的自回归模型处理可行轨迹的生成，同时保留了扩散模型的轨迹优化过程，从而实现了更高效的规划而不牺牲能力。在 D4RL 基准上的实验结果表明，与之前的序列建模方法相比，我们的方法在推理速度和总体性能方面均比它们表现出更高的效果。

本文介绍了一种名为“层次性扩散器”的规划方法，结合了层次化和基于扩散的规划的优点。该方法在更高的层次上采用“跳跃”规划策略，拥有更大的感受域，计算成本较低。实验证实了该方法在培训和规划速度方面的卓越性能和效率。同时，探讨了该方法在复合性的分布任务中提高泛化能力的情况。

基于扩散的规划层次化层次性扩散器强化学习扩散模型泛化能力规划方法