本文研究了去中心化多智能体强化学习问题中的不后悔算法,发现无法以多项式时间实现无后悔学习。该文提出了基于集聚方法的创新性应用,并对博弈理论和强化学习算法研究方向提出了新的思考。
本文介绍了去中心化多智能体强化学习,该领域研究多个代理在公共环境中执行顺序决策,无需中央控制器的协调。该设置广泛应用于机器人、无人驾驶车辆、移动传感器网络和智能电网的控制和操作。
完成下面两步后,将自动完成登录并继续当前操作。