GO-DICE:目标导向的基于选项感知的离线模仿学习通过稳态分布修正估计
原文中文,约300字,阅读约需1分钟。发表于: 。GO-DICE 是一种离线模仿学习技术,用于处理长期目标驱动的顺序任务,通过从示例中分辨子任务的层次结构并分别学习子任务转换和动作执行策略,以实现长期推理。实验结果表明 GO-DICE 优于最近的对照方法,在越来越具有挑战性的 Mujoco 机器人任务的完成率方面有明显改善。此外,GO-DICE 还能够利用不完美的示例和部分任务分割来提高任务的性能。
GO-DICE是一种离线模仿学习技术,用于处理长期目标驱动的顺序任务。实验结果表明GO-DICE在Mujoco机器人任务的完成率方面有明显改善。GO-DICE还能够利用不完美的示例和部分任务分割来提高任务的性能。