模型预测控制与近端策略优化在单自由度直升机系统中的比较
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文提出了一种新的参数化控制器,通过学习问题参数而不是从模型中导出,解决了深度强化学习中学习控制器的局限性。学习到的控制器具有可验证特性,并在控制性能上与其他控制器相当。通过车辆漂移操纵任务的实际应用,展示了该控制器的潜力。
🎯
关键要点
- 提出了一种新的参数化控制器,借鉴了模型预测控制的思想。
- 控制器采用与线性模型预测控制类似的二次规划结构,通过学习问题参数而不是从模型中导出。
- 该方法解决了深度强化学习中学习控制器的局限性,特别是在解释性和性能保证方面。
- 学习到的控制器具有可验证特性,如持续可行性和渐近稳定性。
- 在控制性能上,学习到的控制器与模型预测控制和多层感知器控制器相当。
- 与模型预测控制相比,该控制器在实施上更具计算效率。
- 比多层感知器控制器需要更少的可学习策略参数。
- 通过车辆漂移操纵任务的实际应用,展示了控制器在实际场景中的潜力。
➡️