免去探索假设的折扣线性 MDP 中的模仿学习
📝
内容提要
我们提出了一种新的算法 ILARL 用于无限时间线性 MDP 中的模仿学习,该算法大大改进了学习者需要从环境中采样的轨迹数量的界限,并且从 ε 的收敛速度从 O (ε^-5) 改进到 O (ε^-4),我们的结果建立在模仿学习与带有对抗性损失的 MDPs 在线学习之间的联系上。此外,我们基于有限时间线性 MDP 为 ILARL 提供了一项更为强大的结果,实现了 O (ε^-2)...
➡️