Near-optimal Sample Complexity of Offline KL-Regularized Contextual Bandits under Single-Policy Concentration

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究解决了KL正则化上下文强盗的样本复杂度问题,提出的算法实现了$ ilde{O}( rac{1}{ ext{ε}})$的样本复杂度,展示了算法的近似最优性,并扩展到上下文对抗强盗问题。

🎯

关键要点

  • 本研究解决了KL正则化上下文强盗的样本复杂度问题。
  • 提出的算法实现了$O( rac{1}{ ext{ε}})$的样本复杂度。
  • 研究展示了算法的近似最优性。
  • 算法扩展到上下文对抗强盗问题。
  • 在单策略浓缩性条件下,样本复杂度界限不足的问题得到解决。
  • 利用了KL正则化的强凸性和真实奖励与悲观估计之间的条件非负性。
➡️

继续阅读