在部分可观测性下的合作多智能体强化学习的信念状态

📝

内容提要

本文研究了在部分可观测环境中,合作多智能体强化学习所面临的挑战,特别是如何有效地估计系统的潜在状态。提出了一种利用学习信念的方法,通过自监督方式预训练概率信念模型,从而改进多个智能体的学习过程,并在性能和收敛速度上取得显著提升。

➡️

继续阅读