基于部分奖励解耦的多智能体近端策略优化中的信用分配

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该研究开发了一种多智能体强化学习算法,用于优化多个多基站多小区网络的能耗和服务质量。该算法通过协作基站控制策略,在低流量和高流量小时内分别减少了约8.7%的功耗和提高了约19%的能源效率。

🎯

关键要点

  • 开发了一种多智能体强化学习算法,优化多基站多小区网络的能耗和服务质量。
  • 算法通过决策多个大规模 MIMO 基站的多级高级休眠模式和天线切换,最小化总能耗。
  • 该问题被建模为分散式部分可观察马尔可夫决策过程 (DEC-POMDP),实现基站间的协作。
  • 设计了多智能体近端策略优化 (MAPPO) 算法来学习协作基站控制策略。
  • 提出了 MAPPO - 邻近策略的改进版本以增强可扩展性。
  • 仿真结果显示,MAPPO 智能体相比基准策略性能更佳。
  • 在低流量小时内,MAPPO - 邻近策略减少了约 8.7% 的功耗。
  • 在高流量小时内,MAPPO - 邻近策略提高了约 19% 的能源效率。
➡️

继续阅读