GO-DICE是一种离线模仿学习技术,用于处理长期目标驱动的顺序任务。实验结果表明GO-DICE在Mujoco机器人任务的完成率方面有明显改善。GO-DICE还能够利用不完美的示例和部分任务分割来提高任务的性能。
该论文提出了一种新颖的离线模仿学习算法SMODICE,能够应用于三种离线模仿学习设置,通过Fenchel对偶和解析解在表格MDPs中优化了SMODICE目标。作者在小环境和高维度的离线基准环境上进行了广泛评估,表明SMODICE对所有三种问题设置都有效,且明显优于之前的技术水平。
完成下面两步后,将自动完成登录并继续当前操作。