万花筒:异构多智能体强化学习的可学习掩码

📝

内容提要

该研究针对多智能体强化学习中的全参数共享所导致的策略同质化问题,提出了一种新颖的可适应部分参数共享方案“万花筒”。通过维护公共参数集和多个独特的可学习掩码,本研究促进了策略的多样性,同时保持了高样本效率,实验证明该方法在多个环境中表现优于现有的参数共享方法,展示了其在MARL中的潜在性能提升。

🏷️

标签

➡️

继续阅读