使用神经微分方程和强化学习的托卡马克放电阶段的主动干扰避免和轨迹设计

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究使用西门子公司提供的热力学软件,通过模拟不确定性,实施了三种深度强化学习算法来处理燃气轮机调度问题。其中,深度 Q 网络(DQN)获得了最高奖励,近端策略优化(PPO)是最高效的方法。还提出了一种动态分配燃气轮机运行和维护成本的方法,更好地近似了现代燃气轮机调度的真实成本。

🎯

关键要点

  • 该研究使用西门子公司的热力学软件进行燃气轮机调度问题的模拟。
  • 模拟考虑了电力价格、负载和环境条件的变化。
  • 实施了三种深度强化学习算法:深度 Q 网络(DQN)、近端策略优化(PPO)等。
  • 深度 Q 网络(DQN)获得了最高的奖励。
  • 近端策略优化(PPO)被认为是最高效的方法。
  • 提出了一种动态分配燃气轮机运行和维护成本的方法。
  • 新方法更好地近似了现代燃气轮机调度的真实成本,导致更现实的策略。
➡️

继续阅读