研究提出了 Policy-guided Offline RL 算法,能够在训练时将想法分解为指导策略和执行策略,并通过指导策略来指导执行策略以实现状态组合性。该算法在 D4RL 上展示了最高效的性能,并可以通过改变指导策略来适应新的任务。
完成下面两步后,将自动完成登录并继续当前操作。