小红花·文摘

本研究提出了一种新方法，通过并行训练状态空间模型，加速基于模型的强化学习。在真实世界的四旋翼飞行任务中，该方法将训练时间减少最多10倍，整体训练时间减少最多4倍，同时保持样本效率和任务奖励。