使用监督学习构建短视多方计算策略

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

使用监督学习离线学习最优值函数的方法可以在近视型MPC中减少在线计算负担,而不影响控制器性能。该方法通过使用离线收集的状态-值对来学习代价函数,而不是闭环性能数据。

🎯

关键要点

  • 使用监督学习技术结合模型预测控制(MPC)在近期引起了显著关注。

  • 近似显式 MPC 领域使用深度神经网络等函数逼近器通过离线生成的最优状态 - 动作对来学习 MPC 策略。

  • 本文提出使用监督学习离线学习最优值函数作为替代策略,而不是最优策略。

  • 该方法适用于近视型 MPC 中的代价函数,减少在线计算负担而不影响控制器性能。

  • 与现有的值函数逼近研究不同,该方法使用离线收集的状态 - 值对来学习代价函数。

  • 通过基于敏感度的数据增强方案解决了用于培训的状态 - 值对生成的成本问题。

➡️

继续阅读