基于技能步骤抽象的离线策略学习用于长时程目标导向任务

本研究解决了长时程目标导向策略学习中奖励稀疏的问题，通过在离线环境中应用技能基础的策略学习方法。提出的离线目标导向策略学习框架（GLvSA）通过将长时程目标分解为与技能对齐的短期目标序列，展示了高效的学习性能，特别是在面对目标分布变化时。实验结果表明，GLvSA框架在适应长时程目标时，表现出超过现有方法的竞争力和效率。

该研究提出了一种新的无监督框架，通过学习结构化表示和方向性移动，从无标签的离线数据中预训练通用策略。实验证明，该策略可以以零样本方式解决目标有条件的和通用 RL 任务，并优于先前方法。