GO-DICE:目标导向的基于选项感知的离线模仿学习通过稳态分布修正估计

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

GO-DICE是一种离线模仿学习技术,用于处理长期目标驱动的顺序任务。实验结果表明GO-DICE在Mujoco机器人任务的完成率方面有明显改善。GO-DICE还能够利用不完美的示例和部分任务分割来提高任务的性能。

🎯

关键要点

  • GO-DICE是一种离线模仿学习技术,适用于长期目标驱动的顺序任务。
  • GO-DICE通过识别示例中的子任务层次结构,分别学习子任务转换和动作执行策略。
  • 实验结果显示,GO-DICE在Mujoco机器人任务的完成率上明显优于最近的对照方法。
  • GO-DICE能够利用不完美的示例和部分任务分割来提升任务性能。
➡️

继续阅读