本文提出了一种基于Koopman算子理论和策略梯度方法的政策学习算法,该算法结合了未知动态系统的线性逼近和最优政策搜索,引入深度Koopman表示来提高数据效率,并应用贝尔曼最优原理来避免逼近系统动态引起的长期任务的累积误差,同时提供理论分析以证明算法的渐近收敛性和采样复杂度。
完成下面两步后,将自动完成登录并继续当前操作。