本论文介绍了奖励增强模仿学习(RAIL)方法,将奖励增强集成到多智能体模仿学习框架中,允许设计者以原则性方式指定先前的知识。该方法在驾驶场景中验证,并在复杂的多智能体设置中展示了单个智能体的局部行动和出现性质的行为性能提高。
完成下面两步后,将自动完成登录并继续当前操作。