基于周期代理状态的 Q 学习在部分可观察的马尔可夫决策过程中的应用
本研究将代理模型纳入到多智能体情景下的部分可观察马尔可夫决策过程中,通过贝叶斯更新和基于置信状态的映射求得最优方案。证明了POMDPs的重要特性在该框架下仍然成立。
原文中文,约200字,阅读约需1分钟。
本研究将代理模型纳入到多智能体情景下的部分可观察马尔可夫决策过程中,通过贝叶斯更新和基于置信状态的映射求得最优方案。证明了POMDPs的重要特性在该框架下仍然成立。