基于部分奖励解耦的多智能体近端策略优化中的信用分配
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该研究开发了一种多智能体强化学习算法,用于优化多个多基站多小区网络的能耗和服务质量。该算法通过协作基站控制策略,在低流量和高流量小时内分别减少了约8.7%的功耗和提高了约19%的能源效率。
🎯
关键要点
- 开发了一种多智能体强化学习算法,优化多基站多小区网络的能耗和服务质量。
- 算法通过决策多个大规模 MIMO 基站的多级高级休眠模式和天线切换,最小化总能耗。
- 该问题被建模为分散式部分可观察马尔可夫决策过程 (DEC-POMDP),实现基站间的协作。
- 设计了多智能体近端策略优化 (MAPPO) 算法来学习协作基站控制策略。
- 提出了 MAPPO - 邻近策略的改进版本以增强可扩展性。
- 仿真结果显示,MAPPO 智能体相比基准策略性能更佳。
- 在低流量小时内,MAPPO - 邻近策略减少了约 8.7% 的功耗。
- 在高流量小时内,MAPPO - 邻近策略提高了约 19% 的能源效率。
➡️