基于核函数的平均奖励强化学习函数逼近:一种乐观的无遗憾算法
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
本研究探讨了在无限期平均奖励强化学习中,利用核岭回归预测期望价值函数的有效性。提出了一种乐观的无遗憾算法,并在核函数假设下建立了新的性能保证,推导出新的置信区间,以支持核基预测在强化学习中的应用。
🎯
关键要点
- 本研究探讨了在无限期平均奖励强化学习中,利用核岭回归预测期望价值函数的有效性。
- 提出了一种乐观的无遗憾算法,并在核函数假设下建立了新的性能保证。
- 研究推导出新的置信区间,以支持核基预测在强化学习中的应用。
➡️