小红花·文摘

本研究提出了基于信念空间的ConstrainedZero政策迭代算法，用于平衡效用和安全限制。通过学习神经网络近似的最优值和策略，并引入额外的网络头来估计置信度下的失败概率，以指导在线蒙特卡洛树搜索中的安全动作选择。测试结果表明，该方法可以实现目标安全水平。