ConstrainedZero: 基于学习的概率性失败代理和自适应安全约束的机会约束的 POMDP 规划

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究提出了基于信念空间的ConstrainedZero政策迭代算法,用于平衡效用和安全限制。通过学习神经网络近似的最优值和策略,并引入额外的网络头来估计置信度下的失败概率,以指导在线蒙特卡洛树搜索中的安全动作选择。实验结果表明,该方法在安全关键的POMDP基准、飞机碰撞避免系统和安全二氧化碳储存可持续性问题上有效。

🎯

关键要点

  • 本研究提出了基于信念空间的ConstrainedZero政策迭代算法。
  • 该算法旨在平衡效用和安全限制。
  • 通过学习神经网络近似的最优值和策略来实现目标。
  • 引入额外的网络头来估计置信度下的失败概率。
  • 该方法指导在线蒙特卡洛树搜索中的安全动作选择。
  • 使用自适应符合推理更新规划中的失败阈值。
  • 引入Δ-MCTS以避免过分强调基于失败估计的搜索。
  • 实验结果表明该方法在安全关键的POMDP基准上有效。
  • 该方法在飞机碰撞避免系统中表现良好。
  • 在安全二氧化碳储存可持续性问题上也取得了成功。
  • 通过将安全限制与目标分离,实现了目标安全水平。
➡️

继续阅读