小红花·文摘

该研究提出了一种名为PPO的新的增强学习策略梯度方法，可实现多个小批量更新周期，表现优于其他在线策略梯度方法。同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。