基于多模态学习与变换器的通用航天器轨迹生成
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
我们研究了高维连续动作空间中的强化学习,提出了一种基于潜变量的多模式策略框架,并开发了重新参数化策略梯度方法。该方法结合多模式策略和学习的世界模型,提高了探索能力和数据利用率。实验显示,该方法在不同奖励任务中表现优于以往方法。
🎯
关键要点
- 研究高维连续动作空间中的强化学习策略挑战。
- 提出多模式策略以克服高斯参数化方法的限制。
- 将连续RL策略建模为最优轨迹的生成模型。
- 通过潜变量条件化策略,导出新颖的变分下界作为优化目标。
- 提出重新参数化策略梯度(RPG)方法,结合多模式策略和学习的世界模型。
- RPG方法提高了探索能力和数据利用率。
- 实证结果显示该方法在密集奖励任务中避免局部最优值。
- 结合面向对象的内在奖励解决稀疏奖励环境。
- 该方法在各种任务中表现优于以往方法。
- 项目页面提供代码和补充材料。
➡️