SOMTP:基于自监督学习的机器人基于 MPC 的安全轨迹规划问题的优化器

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了基于信念空间的ConstrainedZero政策迭代算法,用于平衡效用和安全限制。通过学习神经网络近似的最优值和策略,并引入额外的网络头来估计置信度下的失败概率,以指导在线蒙特卡洛树搜索中的安全动作选择。测试结果表明,该方法可以实现目标安全水平。

🎯

关键要点

  • 在不确定环境中,智能体需平衡效用和安全限制。
  • 提出了基于信念空间的ConstrainedZero政策迭代算法。
  • 算法通过学习神经网络近似的最优值和策略。
  • 引入额外的网络头来估计置信度下的失败概率。
  • 该方法指导在线蒙特卡洛树搜索中的安全动作选择。
  • 使用自适应符合推理更新规划中的失败阈值,引入Δ-MCTS。
  • 避免过分强调基于失败估计的搜索。
  • 在安全关键的POMDP基准、飞机碰撞避免系统和安全二氧化碳储存可持续性问题上进行了测试。
  • 测试结果表明,可以在不优化回报和成本之间的平衡的情况下实现目标安全水平。
➡️

继续阅读