本研究提出了一种基于随机均衡模型和双层优化的安全MARL方法,用于自动驾驶应用中的多智能体决策。实验结果显示该方法在奖励和安全性能方面优于其他对照算法。
该文介绍了一个新的强化学习框架,用于在随机环境中实现安全约束。该算法通过最小化违规行为来保持持续的安全特性,并基于可达性估计来优化该框架。在多个安全强化学习环境中进行评估,结果显示了在提高奖励性能和安全性方面的优势。
完成下面两步后,将自动完成登录并继续当前操作。