该研究使用西门子公司提供的热力学软件,通过模拟不确定性,实施了三种深度强化学习算法来处理燃气轮机调度问题。其中,深度 Q 网络(DQN)获得了最高奖励,近端策略优化(PPO)是最高效的方法。还提出了一种动态分配燃气轮机运行和维护成本的方法,更好地近似了现代燃气轮机调度的真实成本。
研究人员使用西门子公司的热力学软件和深度强化学习算法解决经济型燃气轮机调度问题。他们发现深度 Q 网络(DQN)是最有效的算法,并提出了一种动态分配燃气轮机运行和维护成本的方法,更好地近似了真实成本。
该文提出了一个框架来统一安全强化学习和鲁棒强化学习的问题,建立在有约束的两人零和马尔可夫博弈上,提出了一种双重策略迭代方案,同时优化任务策略和安全策略。设计了一种用于实际实现的深度强化学习算法 DRAC,安全关键的基准评估表明 DRAC 在所有情景下实现了高性能和持续的安全性,并且明显优于所有基准线。
通过对DeepMind控制套件中任务的分析,发现高TD错误是深度强化学习算法性能的主要问题。利用正则化技术找到验证TD误差的最低点是提高深度RL效率的重要原则。在线模型选择方法在基于状态的DMC和Gym任务中也是有效的。
本研究提出了一种新的基于边生成调度(EGS)的有向无环图(DAG)调度框架,使用调度性测试方法和深度强化学习算法来生成边缘,并与现有算法进行比较,结果显示该算法需要较少的处理器。
本论文研究了深度强化学习算法解决交通拥堵问题,并开发了一个开源框架评估算法在不同交通模拟环境下的表现。考虑了需求激增、容量减少和传感器故障等外生不确定因素,得出了关键见解,并提出了设计以减轻这些因素对系统的影响。
完成下面两步后,将自动完成登录并继续当前操作。