该论文研究了强化学习中的非马尔可夫过程,提出了一种基于近似信息状态的改进方法,展示了其在多智能体情境下的优越表现。研究表明,代理模型通过贝叶斯更新维护对环境状态的信念,并能有效求得最优方案。此外,探讨了在线强化学习在部分可观测动态系统中的应用,提出了支持函数逼近的基于模型的算法,适用于大状态空间。
完成下面两步后,将自动完成登录并继续当前操作。