本研究提出了保守上下文强盗(CB)的概念,以解决序列决策中的安全问题。算法C-SquareCB和C-FastCB在非线性臂成本下高概率满足安全约束,表现优于现有基线。
完成下面两步后,将自动完成登录并继续当前操作。