小红花·文摘

本研究提出了一种无政策依赖的强化学习（PA-RL）方法，旨在解决现有强化学习在不同策略适应性不足的问题。PA-RL通过通用监督学习损失替代传统的策略改进步骤，使机器人策略微调性能提升40%至70%，样本效率提高两倍。