安全和模型无关强化学习的渐进保障
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了广义安全探索(GSE)问题,并使用元算法MASE进行解决。该算法结合了强化学习与不确定性量化,确保安全性并对不安全的探索进行惩罚。MASE在优化策略时高概率地保证不违反安全约束,并在方格世界和Safety Gym基准测试中优于现有算法。
🎯
关键要点
- 提出了广义安全探索(GSE)问题。
- 使用元算法MASE解决GSE问题。
- MASE结合了无限制的强化学习和不确定性量化。
- 确保当前回合的安全性,并对不安全的探索进行惩罚。
- MASE在优化策略时高概率保证不违反安全约束。
- 在方格世界和Safety Gym基准测试中,MASE优于现有算法。
- 训练过程中没有违反任何安全约束。
➡️