模型预测控制与近端策略优化在单自由度直升机系统中的比较

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文提出了一种新的参数化控制器,通过学习问题参数而不是从模型中导出,解决了深度强化学习中学习控制器的局限性。学习到的控制器具有可验证特性,并在控制性能上与其他控制器相当。通过车辆漂移操纵任务的实际应用,展示了该控制器的潜力。

🎯

关键要点

  • 提出了一种新的参数化控制器,借鉴了模型预测控制的思想。
  • 控制器采用与线性模型预测控制类似的二次规划结构,通过学习问题参数而不是从模型中导出。
  • 该方法解决了深度强化学习中学习控制器的局限性,特别是在解释性和性能保证方面。
  • 学习到的控制器具有可验证特性,如持续可行性和渐近稳定性。
  • 在控制性能上,学习到的控制器与模型预测控制和多层感知器控制器相当。
  • 与模型预测控制相比,该控制器在实施上更具计算效率。
  • 比多层感知器控制器需要更少的可学习策略参数。
  • 通过车辆漂移操纵任务的实际应用,展示了控制器在实际场景中的潜力。
➡️

继续阅读