贝叶斯神经网络的概率式到达 - 避免

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种无模型方法,通过在一维贝尔曼算子中建模不确定性,引入贝叶斯探索网络 (BEN),通过正态化流来建模贝尔曼算子中的不确定性,并通过变分推断来建模知识性不确定性。实验结果表明,BEN 可以在无模型方法失败的任务中学习到真正的贝叶斯最优策略。

🎯

关键要点

  • 贝叶斯强化学习提供了一种处理不确定性顺序决策问题的方法。
  • 主要挑战是高维状态转移分布中建模不确定性的计算复杂性。
  • 提出了一种新颖的无模型方法来解决这一挑战。
  • 通过在一维贝尔曼算子中建模不确定性,引入贝叶斯探索网络 (BEN)。
  • 使用正态化流来建模贝尔曼算子中的不确定性。
  • 通过变分推断来建模知识性不确定性。
  • 实验结果表明,BEN 能在无模型方法失败的任务中学习到真正的贝叶斯最优策略。
➡️

继续阅读