本文提出了一种分布式的深度强化学习资源分配技术,能够在协作无线电网络中迭代地收敛于平衡政策,无需与其他代理协调配合。该技术具有更快的学习性能,并能够在99%的情况下找到最优策略。与基于表格的实现相比,该方法只需不到一半的学习步骤即可实现相同性能。证明了在未协调交互的多无线电情景中使用标准的单智能体深度强化学习方法可能无法收敛。
本文提出了一种分布式深度强化学习资源分配技术,可用于协作无线电网络的多智能体环境。该算法能够迭代地收敛于一个平衡政策,具有更快的学习性能,并能够在足够长的学习时间内在 99% 的情况下找到最优策略。同时,证明了在未协调交互的多无线电情景中使用标准的单智能体深度强化学习方法可能无法收敛。
完成下面两步后,将自动完成登录并继续当前操作。