学习的非马尔可夫安全性约束下的安全强化学习
原文中文,约400字,阅读约需1分钟。发表于: 。在安全强化学习中,我们设计了一个安全模型来评估部分状态 - 动作轨迹对安全性的贡献,并使用 RL-as-inference 策略推导出了一种有效的优化安全策略的算法,最后,我们提出了一种动态调整奖励最大化与安全合规性权衡系数的方法,实证结果表明这种方法规模可扩展且能满足复杂的非 Markov 安全约束。
该研究提出了一种新的方法,使用pSTL安全规范和小规模初始标记数据集,学习安全的强化学习控制策略并识别未知的安全约束参数。实验证实了该方法在各种环境约束形式上的有效性,并成功学习了与真实环境安全约束高度一致的STL安全约束参数。