本研究提出了一种基于随机均衡模型和双层优化的安全MARL方法,用于自动驾驶应用中的多智能体决策。实验结果显示该方法在奖励和安全性能方面优于其他对照算法。
该文介绍了基于Transformer架构的MaskMA预训练框架,解决了多智能体决策中分布式预训练和执行不匹配以及智能体数量和行动空间多样性的问题。实验结果表明,该框架在多个任务上表现出色,包括77.8%的零-shot胜率和有效的策略协作和临时团队游戏能力。
完成下面两步后,将自动完成登录并继续当前操作。