我们提出了一种名为POLO的在线与离线学习框架,旨在帮助代理在持续行动和学习中优化局部轨迹,稳定并加速价值函数的学习,同时通过近似价值函数减少规划时间,提高策略效果。该方法在复杂控制任务中表现优异,如人形运动和灵巧操作。
完成下面两步后,将自动完成登录并继续当前操作。