本研究探讨了受监控的马尔可夫决策过程(Mon-MDPs)中不可观察奖励的问题。通过函数逼近方法,智能体能够从可观察奖励的状态泛化到不可观察奖励的环境状态。为了解决过度泛化导致的奖励错误推断,提出了一种基于奖励不确定性的谨慎策略优化方法。
本研究提出了一种两步规划方法,旨在解决预算和容量约束下的多组件单调马尔可夫决策过程(MDP)问题。实验结果表明,该方法在提高大型工业机器人群的平均正常运行时间方面优于现有技术。
本文探讨了多智能体强化学习中的模型基础方法,提出了自适应对手推演策略优化(AORPO)和去中心化算法MATRPO,旨在提高样本效率和策略优化。这些方法在合作与竞争任务中表现优越,有效解决多智能体控制中的挑战,提升数据效率和性能。
本研究提出了一种政策优化算法,旨在解决成本约束下的马尔可夫决策过程中的后悔最小化问题。该算法在特定条件下实现了较低的后悔度和约束违反率,并扩展到弱通信领域。同时,研究开发了多种有效的学习算法,改进了现有最佳结果,提升了算法的计算效率和遗憾界限。
本论文研究了联合强化学习在表格式情节马尔可夫决策过程中的应用。通过中央服务器的协调,多个代理在不共享原始数据的情况下学习最优策略。提出了两种联合 Q 学习算法,并证明了在时间范围足够大时,可以实现线性加速和对数通信成本。这是第一篇展示模型无关的联合强化学习算法可以实现线性后悔加速和对数通信成本的工作。
本论文提出了一种新的结构性假设,即$u-$平滑性,用于解决强化学习中的无后悔保证挑战。作者提出了两种算法,extsc {Legendre-Eleanor}和extsc {Legendre-LSVI},用于在$u-$平滑 MDPs中最小化后悔。结果表明这些算法达到了最佳保证。
完成下面两步后,将自动完成登录并继续当前操作。