本文提出了一种无模型方法,通过在一维贝尔曼算子中建模不确定性,引入贝叶斯探索网络 (BEN),通过正态化流来建模贝尔曼算子中的不确定性,并通过变分推断来建模知识性不确定性。实验结果表明,BEN 可以在无模型方法失败的任务中学习到真正的贝叶斯最优策略。
完成下面两步后,将自动完成登录并继续当前操作。