具有随机有状态策略的高效强化学习
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种使用反向传播学习连续控制策略的统一框架,支持随机控制。该算法已应用于一个玩具随机控制问题和几个基于物理的控制问题。
🎯
关键要点
- 提出了一种使用反向传播学习连续控制策略的统一框架。
- 通过将贝尔曼方程中的随机性视为外源噪声的确定性函数,支持随机控制。
- 结果是从有值函数的无模型方法到无值函数的有模型方法的通用策略梯度算法谱。
- 使用学习模型,只需来自环境的观察,减少复合模型错误的影响。
- 首先将算法应用于一个玩具随机控制问题,随后在模拟中应用于几个基于物理的控制问题。
- 变体SVG(1)显示了在连续领域同时学习模型、价值函数和策略的有效性。
➡️