小红花·文摘

本文介绍了一种协作多智能体强化学习算法，通过约束权力集中来避免系统中的单点故障。作者提出了权力配对度量和约束目标，并提出了两种训练智能体的算法以达到权力正则化目标。实验证明，这些算法能够成功平衡任务奖励和权力，避免灾难事件的发生。