该文章提出了一个统一安全强化学习和鲁棒强化学习问题的框架,基于两人零和马尔可夫博弈,提出了双重策略迭代方案和深度强化学习算法DRAC。实验结果显示,DRAC在各种情景下表现出高性能和持续的安全性,优于其他基准算法。
该文提出了一个框架来统一安全强化学习和鲁棒强化学习的问题,建立在有约束的两人零和马尔可夫博弈上,提出了一种双重策略迭代方案,同时优化任务策略和安全策略。设计了一种用于实际实现的深度强化学习算法 DRAC,安全关键的基准评估表明 DRAC 在所有情景下实现了高性能和持续的安全性,并且明显优于所有基准线。
完成下面两步后,将自动完成登录并继续当前操作。