本文提出了一种混合方法来解决安全关键环境中的复杂合作任务,通过整合多智能体增强学习和控制理论方法。实验证明该方法在任务性能和安全违规方面取得了显著优势。
本文提出了一种基于信息瓶颈的无监督方法,用于探索稀疏的多智能体增强学习中的社交通信情境。该方法可以捕捉复杂性和任务特定效用,并开发出一种自然语言灵感的信息组成的词汇表,通过社交影子来学习通信策略。
完成下面两步后,将自动完成登录并继续当前操作。