基于技能步骤抽象的离线策略学习用于长时程目标导向任务
原文中文,约200字,阅读约需1分钟。发表于: 。本研究解决了长时程目标导向策略学习中奖励稀疏的问题,通过在离线环境中应用技能基础的策略学习方法。提出的离线目标导向策略学习框架(GLvSA)通过将长时程目标分解为与技能对齐的短期目标序列,展示了高效的学习性能,特别是在面对目标分布变化时。实验结果表明,GLvSA框架在适应长时程目标时,表现出超过现有方法的竞争力和效率。
该研究提出了一种新的无监督框架,通过学习结构化表示和方向性移动,从无标签的离线数据中预训练通用策略。实验证明,该策略可以以零样本方式解决目标有条件的和通用 RL 任务,并优于先前方法。