小红花·文摘

本文探讨模型预测控制（MPC）与强化学习（RL）在马尔可夫决策过程中的关系及应用，提出基于演员-评论家的框架，展示MPC如何提升政策闭环性能，为两者结合奠定基础。