SOMTP:基于自监督学习的机器人基于 MPC 的安全轨迹规划问题的优化器
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了基于信念空间的ConstrainedZero政策迭代算法,用于平衡效用和安全限制。通过学习神经网络近似的最优值和策略,并引入额外的网络头来估计置信度下的失败概率,以指导在线蒙特卡洛树搜索中的安全动作选择。测试结果表明,该方法可以实现目标安全水平。
🎯
关键要点
- 在不确定环境中,智能体需平衡效用和安全限制。
- 提出了基于信念空间的ConstrainedZero政策迭代算法。
- 算法通过学习神经网络近似的最优值和策略。
- 引入额外的网络头来估计置信度下的失败概率。
- 该方法指导在线蒙特卡洛树搜索中的安全动作选择。
- 使用自适应符合推理更新规划中的失败阈值,引入Δ-MCTS。
- 避免过分强调基于失败估计的搜索。
- 在安全关键的POMDP基准、飞机碰撞避免系统和安全二氧化碳储存可持续性问题上进行了测试。
- 测试结果表明,可以在不优化回报和成本之间的平衡的情况下实现目标安全水平。
➡️