规划是哪种类型的推理?
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究使用贝叶斯方法研究了强化学习中的马尔科夫决策过程,并通过引入变分贝叶斯近似方法得到了一个可行的凸优化问题。实验表明,该方法在性能上具有优势。
🎯
关键要点
- 本研究使用贝叶斯方法研究强化学习中的马尔科夫决策过程。
- 通过概率推理研究状态 - 行为对的访问概率。
- 严格处理状态 - 行为优化的后验概率。
- 引入变分贝叶斯近似方法,得到可行的凸优化问题。
- 建立的策略能够有效进行探索。
- 该方法称为 VAPOR,与汤普森抽样、K 学习和最大熵探索相关。
- 实验表明深度强化学习版本 VAPOR 在性能上具有优势。
➡️