具有双重鲁棒性的安全强化学习
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该文提出了一个框架来统一安全强化学习和鲁棒强化学习的问题,建立在有约束的两人零和马尔可夫博弈上,提出了一种双重策略迭代方案,同时优化任务策略和安全策略。设计了一种用于实际实现的深度强化学习算法 DRAC,安全关键的基准评估表明 DRAC 在所有情景下实现了高性能和持续的安全性,并且明显优于所有基准线。
🎯
关键要点
- 提出了一个系统的框架来统一安全强化学习和鲁棒强化学习的问题。
- 框架包括问题的形式化、迭代方案、收敛性分析和实际算法设计。
- 该框架建立在有约束的两人零和马尔可夫博弈上。
- 提出了一种双重策略迭代方案,同时优化任务策略和安全策略。
- 证明了该迭代方案的收敛性。
- 设计了一种深度强化学习算法,称为 DRAC,用于实际实现。
- 安全关键的基准评估表明,DRAC 在所有情景下实现了高性能和持续的安全性。
- DRAC 明显优于所有基准线。
➡️