学习的非马尔可夫安全性约束下的安全强化学习

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该研究提出了一种新的方法,使用pSTL安全规范和小规模初始标记数据集,学习安全的强化学习控制策略并识别未知的安全约束参数。实验证实了该方法在各种环境约束形式上的有效性,并成功学习了与真实环境安全约束高度一致的STL安全约束参数。

🎯

关键要点

  • 提出了一种新的方法,学习安全的强化学习控制策略并识别未知的安全约束参数。
  • 使用参数化信号时态逻辑 (pSTL) 安全规范和小规模初始标记数据集。
  • 将问题视为双层优化任务,采用拉格朗日变体的双延迟深度确定性策略梯度 (TD3) 算法进行约束策略优化。
  • 结合贝叶斯优化来优化给定 pSTL 安全规范的参数。
  • 通过案例研究验证了该方法在各种环境约束形式上的有效性,产生高回报的安全强化学习策略。
  • 成功学习了与真实环境安全约束高度一致的 STL 安全约束参数。
  • 模型表现与完全了解安全约束的理想情况相似,能够准确识别环境安全约束并学习遵守这些约束的安全策略。
➡️

继续阅读