自动驾驶中的安全多智能体强化学习与双层优化

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究提出了一种基于随机均衡模型和双层优化的安全MARL方法,用于自动驾驶应用中的多智能体决策。实验结果显示该方法在奖励和安全性能方面优于其他对照算法。

🎯

关键要点

  • 在自动驾驶应用中确保多智能体强化学习 (MARL) 的安全性是一个关键挑战。
  • 本研究提出了一种基于随机均衡模型和双层优化的安全 MARL 方法。
  • 研究提供了收敛性分析,并开发了两种实用算法:约束 Stackelberg Q 学习 (CSQ) 和约束 Stackelberg 多智能体深度确定性策略梯度 (CS-MADDPG)。
  • 实验结果表明,CSQ 和 CS-MADDPG 在奖励和安全性能方面优于其他对照算法,如 Bi-AC、MACPO 和 MAPPO-L。
  • 演示和源代码可在指定的 URL 中找到。
➡️

继续阅读