小红花·文摘

该文介绍了一种名为CPQL的新型时间效率方法，通过将噪声转化为动作，解决了扩散模型在更新时的时间效率和准确性问题，实现了脱机强化学习的策略改进，并可以无缝地扩展到在线强化学习任务中。实验结果表明，CPQL在11个脱机任务和21个在线任务中取得了新的最高性能，推理速度相比Diffusion-QL提高了近45倍。