无仿真深度学习方法解决随机最优控制问题
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种统一框架,将贝尔曼方程中的随机性视为外部噪声的确定性函数,支持连续控制策略的学习。该框架提供了一系列策略梯度算法,从无模型到有模型的方法。算法仅需环境观察,减少模型误差影响。在随机控制问题和物理模拟中,SVG(1)变体展示了同时学习模型、价值函数和策略的有效性。
🎯
关键要点
- 提出了一种使用反向传播学习连续控制策略的统一框架。
- 将贝尔曼方程中的随机性视为外源噪声的确定性函数,以支持随机控制。
- 框架提供了一系列从无模型到有模型的通用策略梯度算法。
- 算法仅需环境观察,减少模型误差的影响。
- 首先在玩具随机控制问题上应用这些算法,随后在物理模拟中应用。
- SVG(1)变体展示了同时学习模型、价值函数和策略的有效性。
➡️