基于技能步骤抽象的离线策略学习用于长时程目标导向任务
该研究提出了一种新的无监督框架,通过学习结构化表示和方向性移动,从无标签的离线数据中预训练通用策略。实验证明,该策略可以以零样本方式解决目标有条件的和通用 RL 任务,并优于先前方法。
原文中文,约200字,阅读约需1分钟。
该研究提出了一种新的无监督框架,通过学习结构化表示和方向性移动,从无标签的离线数据中预训练通用策略。实验证明,该策略可以以零样本方式解决目标有条件的和通用 RL 任务,并优于先前方法。