本文研究了奖励自由强化学习和受限制的强化学习之间的联系,并提出了一种简单的元算法来解决受限制的强化学习问题。该算法利用现有的奖励自由RL解算器,并在线性函数近似下扩展到标记二人马尔可夫博弈的设置中。研究结果表明了新的受限制的RL方法的有效性。
完成下面两步后,将自动完成登录并继续当前操作。