小红花·文摘

本文探讨了基于量子上界置信区间（UCB）算法的强化学习问题，提出了动态遗憾最小化和适应性在线学习等新算法，以提高性能。研究表明，这些算法在不同环境下的表现优于传统方法，尤其在处理未知有限通信的马尔可夫决策过程时。