规划是哪种类型的推理?

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究使用贝叶斯方法研究了强化学习中的马尔科夫决策过程,并通过引入变分贝叶斯近似方法得到了一个可行的凸优化问题。实验表明,该方法在性能上具有优势。

🎯

关键要点

  • 本研究使用贝叶斯方法研究强化学习中的马尔科夫决策过程。
  • 通过概率推理研究状态 - 行为对的访问概率。
  • 严格处理状态 - 行为优化的后验概率。
  • 引入变分贝叶斯近似方法,得到可行的凸优化问题。
  • 建立的策略能够有效进行探索。
  • 该方法称为 VAPOR,与汤普森抽样、K 学习和最大熵探索相关。
  • 实验表明深度强化学习版本 VAPOR 在性能上具有优势。
➡️

继续阅读