本文提出了一种新颖的自引导模型预测控制算法(BMPC),有效解决了无模型学习策略和价值估计不准确的问题。BMPC通过模仿专家和结合时序差分学习,显著提升了控制效率和数据效率,尤其在高维运动任务中表现突出。
完成下面两步后,将自动完成登录并继续当前操作。