该文章介绍了一种解决多智能体强化学习通信问题的方法,通过自我监督的方式使用自动编码器预训练通信策略,实现从智能体观察中学习潜在马尔可夫状态。该方法适应新任务,支持智能体扩展,并能检测异常事件。实证结果显示该方法在未知任务中优于特定任务的通信策略。
完成下面两步后,将自动完成登录并继续当前操作。