平均奖励和分段强化学习的乐观 Q 学习
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了一种乐观的 Q 学习算法,用于在额外假设下的平均奖励强化学习中实现遗憾最小化,该额外假设是对底层 MDP 的所有策略来说,访问某些频繁状态 s0 的预期时间是有限的并且上界为 H。
该研究探讨了量子加速在解决无限视界马尔可夫决策过程(MDP)以增强平均奖励结果方面的潜力。研究引入了一种创新的量子框架,通过高效的量子均值估计技术利用代理通过量子信号获取的数据,实现了指数级的遗憾保证。该方法相对于经典对应方法展现了显著改进。