基于核函数的平均奖励强化学习函数逼近:一种乐观的无遗憾算法

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本研究探讨了在无限期平均奖励强化学习中,使用核岭回归预测期望价值函数的问题,提出了一种乐观算法,并建立了无遗憾的性能保证,同时推导出新的置信区间。

🎯

关键要点

  • 本研究探讨了无限期平均奖励强化学习中的问题。
  • 研究利用核岭回归预测期望价值函数。
  • 提出了一种乐观算法。
  • 在核函数建模假设下建立了无遗憾的性能保证。
  • 推导出了一种新的置信区间,用于核基预测在不同强化学习问题中的应用。
➡️

继续阅读