本研究提出了基于信念空间的ConstrainedZero政策迭代算法,用于平衡效用和安全限制。通过学习神经网络近似的最优值和策略,并引入额外的网络头来估计置信度下的失败概率,以指导在线蒙特卡洛树搜索中的安全动作选择。测试结果表明,该方法可以实现目标安全水平。
完成下面两步后,将自动完成登录并继续当前操作。