本文探讨模型预测控制(MPC)与强化学习(RL)在马尔可夫决策过程中的关系及应用,提出基于演员-评论家的框架,展示MPC如何提升政策闭环性能,为两者结合奠定基础。
完成下面两步后,将自动完成登录并继续当前操作。