ConstrainedZero: 基于学习的概率性失败代理和自适应安全约束的机会约束的 POMDP 规划
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本研究提出了基于信念空间的ConstrainedZero政策迭代算法,用于平衡效用和安全限制。通过学习神经网络近似的最优值和策略,并引入额外的网络头来估计置信度下的失败概率,以指导在线蒙特卡洛树搜索中的安全动作选择。实验结果表明,该方法在安全关键的POMDP基准、飞机碰撞避免系统和安全二氧化碳储存可持续性问题上有效。
🎯
关键要点
- 本研究提出了基于信念空间的ConstrainedZero政策迭代算法。
- 该算法旨在平衡效用和安全限制。
- 通过学习神经网络近似的最优值和策略来实现目标。
- 引入额外的网络头来估计置信度下的失败概率。
- 该方法指导在线蒙特卡洛树搜索中的安全动作选择。
- 使用自适应符合推理更新规划中的失败阈值。
- 引入Δ-MCTS以避免过分强调基于失败估计的搜索。
- 实验结果表明该方法在安全关键的POMDP基准上有效。
- 该方法在飞机碰撞避免系统中表现良好。
- 在安全二氧化碳储存可持续性问题上也取得了成功。
- 通过将安全限制与目标分离,实现了目标安全水平。
➡️