无仿真深度学习方法解决随机最优控制问题

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种统一框架,将贝尔曼方程中的随机性视为外部噪声的确定性函数,支持连续控制策略的学习。该框架提供了一系列策略梯度算法,从无模型到有模型的方法。算法仅需环境观察,减少模型误差影响。在随机控制问题和物理模拟中,SVG(1)变体展示了同时学习模型、价值函数和策略的有效性。

🎯

关键要点

  • 提出了一种使用反向传播学习连续控制策略的统一框架。
  • 将贝尔曼方程中的随机性视为外源噪声的确定性函数,以支持随机控制。
  • 框架提供了一系列从无模型到有模型的通用策略梯度算法。
  • 算法仅需环境观察,减少模型误差的影响。
  • 首先在玩具随机控制问题上应用这些算法,随后在物理模拟中应用。
  • SVG(1)变体展示了同时学习模型、价值函数和策略的有效性。
➡️

继续阅读