小红花·文摘

本文提出了一种分布式深度强化学习资源分配技术，可用于协作无线电网络的多智能体环境。该算法能够迭代地收敛于一个平衡政策，具有更快的学习性能，并能够在足够长的学习时间内在 99% 的情况下找到最优策略。同时，证明了在未协调交互的多无线电情景中使用标准的单智能体深度强化学习方法可能无法收敛。