逆向约束强化学习研究了从离线专家演示中估计约束的算法,并提供了一种基于置信水平对专家演示进行约束估计的方法。用户可以选择满足期望置信水平的约束进行使用,并了解专家轨迹数量不足时的情况并采集更多专家轨迹以同时学习满足期望置信水平的约束和达到期望性能水平的策略。
完成下面两步后,将自动完成登录并继续当前操作。