小红花·文摘

该文章提出了一个统一安全强化学习和鲁棒强化学习问题的框架，基于两人零和马尔可夫博弈，提出了双重策略迭代方案和深度强化学习算法DRAC。实验结果显示，DRAC在各种情景下表现出高性能和持续的安全性，优于其他基准算法。