任何时候的概率约束可证明收敛的在线信念空间规划
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
在不确定环境中,智能体需平衡效用与安全限制。研究提出基于信念空间的ConstrainedZero算法,通过神经网络学习最优值和策略,并估计失败概率以指导安全动作选择。同时引入Δ-MCTS以避免过度强调失败估计。该方法在多个安全关键问题上测试,结果表明可在不牺牲回报和成本的情况下实现目标安全水平。
🎯
关键要点
- 在不确定环境中,智能体需平衡效用与安全限制。
- 研究提出基于信念空间的ConstrainedZero政策迭代算法。
- 算法通过神经网络学习最优值和策略,并估计失败概率以指导安全动作选择。
- 引入Δ-MCTS以避免过度强调失败估计。
- 该方法在多个安全关键问题上测试,包括飞机碰撞避免和安全二氧化碳储存。
- 结果表明可以在不牺牲回报和成本的情况下实现目标安全水平。
🏷️
标签
➡️