本研究提出了一种新方法,通过并行训练状态空间模型,加速基于模型的强化学习。在真实世界的四旋翼飞行任务中,该方法将训练时间减少最多10倍,整体训练时间减少最多4倍,同时保持样本效率和任务奖励。
完成下面两步后,将自动完成登录并继续当前操作。