本文提出了一种基于随机模型的方法,几乎确定地保证了强化学习的安全性。通过预测状态表示和再生核希尔伯特空间,对未来的多步观测进行了解析表示,并通过核贝叶斯规则导出了关键操作,可以递归估计未来的观测。建立了多项式样本复杂度,确保了 ε- 次优安全策略保证。
完成下面两步后,将自动完成登录并继续当前操作。