小红花·文摘

本文介绍了基于回报条件的监督学习（RCSL）的离策略学习技术如何在放松了的 Bellman 完备性条件下收敛，并提出了 MBRCSL 框架，通过学习的动力学模型和前向采样来实现轨迹拼接，避免了动态规划算法中的 Bellman 完备性需求。使用两层多层感知机作为函数逼近器时，该技术实现了与动态规划方法相媲美的性能。