小红花·文摘

该论文研究了强化学习中的非马尔可夫过程，提出了一种基于近似信息状态的改进方法，展示了其在多智能体情境下的优越表现。研究表明，代理模型通过贝叶斯更新维护对环境状态的信念，并能有效求得最优方案。此外，探讨了在线强化学习在部分可观测动态系统中的应用，提出了支持函数逼近的基于模型的算法，适用于大状态空间。