本研究提出了一种无政策依赖的强化学习(PA-RL)方法,旨在解决现有强化学习在不同策略适应性不足的问题。PA-RL通过通用监督学习损失替代传统的策略改进步骤,使机器人策略微调性能提升40%至70%,样本效率提高两倍。
完成下面两步后,将自动完成登录并继续当前操作。