小红花·文摘

本文介绍了一种新的离线强化学习方法——扩散Q学习，结合行为克隆和策略改进，提升了在D4RL基准任务中的表现。该方法通过状态重构特征学习解决分布偏移问题，并在多模态上下文环境中展示了优越性能。同时，提出的自适应策略学习框架和扩散策略优化算法显著提高了训练效率和样本利用率。