本文介绍了一种协作多智能体强化学习算法,通过约束权力集中来避免系统中的单点故障。作者提出了权力配对度量和约束目标,并提出了两种训练智能体的算法以达到权力正则化目标。实验证明,这些算法能够成功平衡任务奖励和权力,避免灾难事件的发生。
完成下面两步后,将自动完成登录并继续当前操作。