本文研究了分布式和策略性在线学习问题,发现在不完全信息情境中,追随者按照局部最优策略响应领导者的行动;而在附加信息情境中,追随者可以通过策略性行动操控领导者的奖励信号。研究结果表明,分布式在线学习在这两种情境下都能达到最后迭代收敛和样本复杂度方面的结果。设计的操控策略在处理附加信息情境中具有内在优势。实证结果也支持理论结果。
本文介绍了一种针对协作无线电网络的分布式深度强化学习资源分配技术,能够在非平稳环境下迭代地收敛于平衡政策,且无需与其他代理协调配合。
完成下面两步后,将自动完成登录并继续当前操作。