基于技能步骤抽象的离线策略学习用于长时程目标导向任务
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
该研究提出了一种新的无监督框架,通过学习结构化表示和方向性移动,从无标签的离线数据中预训练通用策略。实验证明,该策略可以以零样本方式解决目标有条件的和通用 RL 任务,并优于先前方法。
🎯
关键要点
-
提出了一种新的无监督框架,通过学习结构化表示和方向性移动。
-
该框架从无标签的离线数据中预训练通用策略。
-
预训练的策略能够捕捉多样化、最优且长程行为。
-
策略可以在零样本方式下快速适应任意新任务。
-
在模拟机器人的运动和操作基准测试中,实验证明该策略的有效性。
-
无监督策略能够以零样本方式解决目标有条件的和通用 RL 任务。
-
该策略的表现优于针对每个场景专门设计的先前方法。
➡️