小红花·文摘

本文研究了奖励自由强化学习和受限制的强化学习之间的联系，并提出了一种简单的元算法来解决受限制的强化学习问题。该算法利用现有的奖励自由RL解算器，并在线性函数近似下扩展到标记二人马尔可夫博弈的设置中。研究结果表明了新的受限制的RL方法的有效性。