强化学习中的安全探索:广义形式与算法
原文中文,约400字,阅读约需1分钟。发表于: 。在本篇论文中,我们提出了一个名为广义安全探索(GSE)的问题,并使用元算法 MASE 解决了这个问题,该算法结合了无限制的强化学习算法和不确定性量化器,以确保当前回合的安全性,同时在实际安全违规之前对不安全的探索进行适当的惩罚,以防止它们在未来回合中发生。MASE 算法的优势在于我们可以在合理假设下优化策略,同时以很高的概率保证不违反任何安全约束。最后,我们演示了我们提出的算法在方格世界和...
本文提出了广义安全探索问题,使用元算法MASE解决。该算法在方格世界和Safety Gym基准测试上表现更好,且没有违反任何安全约束。