小红花·文摘

研究提出了 Policy-guided Offline RL 算法，能够在训练时将想法分解为指导策略和执行策略，并通过指导策略来指导执行策略以实现状态组合性。该算法在 D4RL 上展示了最高效的性能，并可以通过改变指导策略来适应新的任务。