小红花·文摘

本文探讨了在线强化学习在马尔可夫决策过程中的应用，提出了多种算法以提高后悔性能，包括基于线性优化的算法和利用人类反馈的强化学习方法。这些算法在不同环境下实现了高效的样本利用和计算复杂度优化，改进了现有的最佳结果，并为动态遗憾分析提供了理论支持。