高维肌骨模型中无示范的强化学习自然稳健步行

人类以稳健的双足步行在复杂的自然环境中表现出色。然而，尚不完全了解神经系统如何解决肌骨冗余以解决多目标控制问题，考虑稳定性、鲁棒性和能量效率。本研究探索使用强化学习实现自然步行，并保持其鲁棒性，为研究人类在复杂自然环境中步行的新方法铺平道路。

本文提出了一种基于模型的机器人运动框架，通过引入跟踪多个时间步长上的模型预测的损失函数来准确地建模机器人的动力学，使学习到的模型可以进行实时控制。此方法比当前的无模型方法在样本效率上提高了一个数量级以上。