本文介绍了一种改进的模型预测控制算法TD-MPC2,成功训练了一个单一的3.17亿参数代理程序,执行了80个跨多个任务领域的任务。该算法在104个在线强化学习任务中相对于基准方案的显著改进,并对大型TD-MPC2代理程序的经验、机会和风险进行了总结。
完成下面两步后,将自动完成登录并继续当前操作。