通过课程强化学习的方法对球形摆进行跟踪控制

原文约300字，阅读约需1分钟。发表于：。

在本文中，我们将自动构建课程计划的最新算法与大规模并行仿真中的强化学习相结合，通过改进的优化方案，使得该方法能够可靠生成待追踪的课程轨迹，从而实现了比不利用这种结构化学习学习更快、更稳健的结果，最终的学习策略在真实系统上与最优控制相媲美，展示了课程强化学习在联合学习状态估计和非线性追踪任务控制方面的潜力。

本文介绍了一种将自动构建课程计划的算法与大规模并行仿真中的强化学习相结合的方法，实现了比不利用这种结构化学习学习更快、更稳健的结果。最终的学习策略在真实系统上与最优控制相媲美，展示了课程强化学习在联合学习状态估计和非线性追踪任务控制方面的潜力。