稀疏线性 MDP 中的探索和学习,无需计算难解的预测器

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

该论文介绍了一种基于特性映射的新算法,能够以线性方式参数化转移核函数来处理强化学习中的大状态和行动空间。该算法在一些强化学习问题中能够取得多项式的最优后悔值,且总体上是近乎最优的。

🎯

关键要点

  • 论文介绍了一种基于特性映射的新算法。
  • 该算法能够以线性方式参数化转移核函数。
  • 算法旨在处理强化学习中的大状态和行动空间。
  • 在一些强化学习问题中,该算法能够取得多项式的最优后悔值。
  • 该算法总体上是近乎最优的。
  • 算法不需要访问生成模型。
➡️

继续阅读