确定性轨迹优化通过概率最优控制

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文提出了两种新的算法,专为离散时间确定有限时域非线性最优控制问题或轨迹优化问题而设计。这些算法受到了概率最优控制理论的启发,将最优控制重新制定为概率推断问题。通过应用这些算法,得到的概率策略的固定点迭代收敛于确定性最优策略。这些算法在结构上与微分动态规划算法和使用sigma点方法避免直接梯度评估的方法最为接近。这些算法在迭代中改善了探索和利用之间的平衡,实现了更好的数值稳定性和加速收敛。

🎯

关键要点

  • 提出了两种新的算法,专为离散时间确定有限时域非线性最优控制问题或轨迹优化问题而设计。
  • 算法受到概率最优控制理论的启发,将最优控制重新制定为概率推断问题。
  • 应用这些算法后,概率策略的固定点迭代收敛于确定性最优策略。
  • 讨论了两种策略评估方法,使用先进的不确定性量化方法,得到了两种不同的算法。
  • 这些算法在结构上与微分动态规划算法和使用sigma点方法避免直接梯度评估的方法最为接近。
  • 主要优点是在迭代中改善了探索和利用之间的平衡,实现了更好的数值稳定性和加速收敛。
  • 这些特性在不同的非线性系统上得到了验证。
➡️

继续阅读