模型预测控制器的改进

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文提出了基于概率模型预测控制(MPC)的基于模型的 RL 框架,以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响,同时使用 MPC 找到最小化预期长期成本的控制序列,以达到在受限环境下使用 RL 的目的。

🎯

关键要点

  • 提出了一种基于概率模型预测控制(MPC)的模型驱动强化学习框架。
  • 该方法旨在减少与环境的交互次数。
  • 使用高斯过程学习概率转换模型以降低模型误差的影响。
  • 通过MPC找到最小化预期长期成本的控制序列。
  • 该框架适用于受限环境下的强化学习。
➡️

继续阅读