基于周期代理状态的 Q 学习在部分可观察的马尔可夫决策过程中的应用
原文中文,约200字,阅读约需1分钟。发表于: 。我们提出了 PASQL(周期性基于智能体状态的 Q 学习),它是一种基于智能体状态的 Q 学习的变体,可以学习周期性策略,并展示了周期性策略相对于固定策略的优势。
本研究将代理模型纳入到多智能体情景下的部分可观察马尔可夫决策过程中,通过贝叶斯更新和基于置信状态的映射求得最优方案。证明了POMDPs的重要特性在该框架下仍然成立。
我们提出了 PASQL(周期性基于智能体状态的 Q 学习),它是一种基于智能体状态的 Q 学习的变体,可以学习周期性策略,并展示了周期性策略相对于固定策略的优势。
本研究将代理模型纳入到多智能体情景下的部分可观察马尔可夫决策过程中,通过贝叶斯更新和基于置信状态的映射求得最优方案。证明了POMDPs的重要特性在该框架下仍然成立。