自动驾驶中的安全多智能体强化学习与双层优化
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究提出了一种基于随机均衡模型和双层优化的安全MARL方法,用于自动驾驶应用中的多智能体决策。实验结果显示该方法在奖励和安全性能方面优于其他对照算法。
🎯
关键要点
- 在自动驾驶应用中确保多智能体强化学习 (MARL) 的安全性是一个关键挑战。
- 本研究提出了一种基于随机均衡模型和双层优化的安全 MARL 方法。
- 研究提供了收敛性分析,并开发了两种实用算法:约束 Stackelberg Q 学习 (CSQ) 和约束 Stackelberg 多智能体深度确定性策略梯度 (CS-MADDPG)。
- 实验结果表明,CSQ 和 CS-MADDPG 在奖励和安全性能方面优于其他对照算法,如 Bi-AC、MACPO 和 MAPPO-L。
- 演示和源代码可在指定的 URL 中找到。
➡️