本研究提出了一种去中心化分布式近端策略优化(DD-PPO)算法,旨在解决高性能计算环境中的资源分配与作业调度问题。该算法在多用户系统中显著提高了调度效率和灵活性,优于传统调度方法和现有强化学习调度技术。
本研究采用深度强化学习和近端策略优化算法,成功训练出能够通过视觉输入实现专业圈速的赛车驾驶代理,有效解决了紧急情况下的轮胎抓地力控制问题。
本研究提出了解耦价值策略优化(DVPO)框架,解决了传统近端策略优化(PPO)在大语言模型训练中的计算复杂性和不稳定性问题,显著降低了GPU内存和训练时间,并在多个基准测试中优于其他强化学习方法。
本研究提出了一种基于领导-追随多智能体近端策略优化的层次化框架,以提升多无人机空战的协同作战性能。该框架通过三层结构设计和角色优化,有效应对高维动作空间的挑战,并在模拟实验中验证了其效果。
加拿大阿尔伯塔省的研究发现,将西门子公司的热力学软件纳入环境模型,并模拟不确定性,发现深度 Q 网络(DQN)是处理经济型燃气轮机调度问题最有效的算法,近端策略优化(PPO)是最高效的方法。研究还提出了一种动态分配燃气轮机运行和维护成本的方法,更好地近似了现代燃气轮机调度的真实成本。
强化学习面临应用挑战,而近端策略优化可以提高学习效率。
本研究提出了一种新的增强学习方法,称为近端策略优化(PPO),通过与环境交互采样数据并使用随机梯度上升优化“替代”目标函数。实验结果表明,PPO在模拟机器人运动和Atari视频游戏等任务上表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率方面取得了平衡。
本文使用强化学习技术调整四旋翼控制器的控制增益,采用近端策略优化训练一个根据实际情况调整控制增益的策略。结果显示,自适应增益方案实现了超过40%的跟踪误差降低。
该研究使用西门子公司提供的热力学软件,通过模拟不确定性,实施了三种深度强化学习算法来处理燃气轮机调度问题。其中,深度 Q 网络(DQN)获得了最高奖励,近端策略优化(PPO)是最高效的方法。还提出了一种动态分配燃气轮机运行和维护成本的方法,更好地近似了现代燃气轮机调度的真实成本。
完成下面两步后,将自动完成登录并继续当前操作。