该研究提出了一种新的无监督框架,通过学习结构化表示和方向性移动,从无标签的离线数据中预训练通用策略,能够适应任意新任务。实验证明,该策略在模拟机器人的测试中以零样本方式解决目标有条件的和通用 RL 任务,并优于先前方法。
完成下面两步后,将自动完成登录并继续当前操作。