强化学习中的安全探索:广义形式与算法
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文提出了广义安全探索问题,使用元算法MASE解决。该算法在方格世界和Safety Gym基准测试上表现更好,且没有违反任何安全约束。
🎯
关键要点
- 提出了广义安全探索(GSE)的问题。
- 使用元算法MASE解决广义安全探索问题。
- MASE结合了无限制的强化学习算法和不确定性量化器。
- 确保当前回合的安全性,并对不安全的探索进行惩罚。
- 在合理假设下优化策略,保证不违反安全约束。
- MASE在方格世界和Safety Gym基准测试上表现优于现有算法。
- 训练过程中没有违反任何安全约束。
➡️