具有双重鲁棒性的安全强化学习
原文中文,约300字,阅读约需1分钟。发表于: 。提出了一个系统的框架来统一安全强化学习和鲁棒强化学习的问题,包括问题的形式化、迭代方案、收敛性分析和实际算法设计。该框架建立在有约束的两人零和马尔可夫博弈上,提出了一种双重策略迭代方案,同时优化任务策略和安全策略。证明了该迭代方案的收敛性。此外,还设计了一种用于实际实现的深度强化学习算法,称为 DRAC。安全关键的基准评估表明,DRAC...
该文提出了一个框架来统一安全强化学习和鲁棒强化学习的问题,建立在有约束的两人零和马尔可夫博弈上,提出了一种双重策略迭代方案,同时优化任务策略和安全策略。设计了一种用于实际实现的深度强化学习算法 DRAC,安全关键的基准评估表明 DRAC 在所有情景下实现了高性能和持续的安全性,并且明显优于所有基准线。