离线强化学习中的扩散模型作为高效规划器
原文中文,约400字,阅读约需1分钟。发表于: 。通过将扩散模型的采样过程分解为两个解耦的子过程,本文提出了 Trajectory Diffuser 方法,利用更快的自回归模型处理可行轨迹的生成,同时保留了扩散模型的轨迹优化过程,从而实现了更高效的规划而不牺牲能力。在 D4RL 基准上的实验结果表明,与之前的序列建模方法相比,我们的方法在推理速度和总体性能方面均比它们表现出更高的效果。
本文介绍了一种名为“层次性扩散器”的规划方法,结合了层次化和基于扩散的规划的优点。该方法在更高的层次上采用“跳跃”规划策略,拥有更大的感受域,计算成本较低。实验证实了该方法在培训和规划速度方面的卓越性能和效率。同时,探讨了该方法在复合性的分布任务中提高泛化能力的情况。