本文提出了一种新颖的自引导模型预测控制算法(BMPC),有效解决了无模型学习策略和价值估计不准确的问题。BMPC通过模仿专家和结合时序差分学习,显著提升了控制效率和数据效率,尤其在高维运动任务中表现突出。
本研究提出了一种自引导的伪相关性缓解框架,通过构建细粒度训练标签来提高分类器对伪相关性的鲁棒性。实验证明,训练分类器以区分不同的预测行为可以减少其对伪相关性的依赖,并在五个真实世界的数据集上优于先前的方法。
完成下面两步后,将自动完成登录并继续当前操作。