小红花·文摘

本研究提出了一种新的增强学习方法，称为近端策略优化（PPO），通过与环境交互采样数据并使用随机梯度上升优化“替代”目标函数。实验结果表明，PPO在模拟机器人运动和Atari视频游戏等任务上表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率方面取得了平衡。