使用课程学习和奖励工程的近端策略优化解决实际优化问题
原文中文,约300字,阅读约需1分钟。发表于: 。我们通过课程学习原则和细致的奖励工程,使用近端策略优化(PPO)智能体对一个现实世界中的高吞吐量垃圾分类设施进行训练,以达到优化操作安全、优化处理量和最小化资源使用的竞争目标,并将其逐渐应用于更加复杂的环境动力学中,同时完善奖励机制,从而提高推理时间安全性并提高垃圾分类工厂的效率。
本研究提出了一种新的增强学习方法,称为近端策略优化(PPO),通过与环境交互采样数据并使用随机梯度上升优化“替代”目标函数。实验结果表明,PPO在模拟机器人运动和Atari视频游戏等任务上表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率方面取得了平衡。