小红花·文摘

本研究探讨了在无限期平均奖励强化学习中，利用核岭回归预测期望价值函数的有效性。提出了一种乐观的无遗憾算法，并在核函数假设下建立了新的性能保证，推导出新的置信区间，以支持核基预测在强化学习中的应用。