最佳选择躲避:关于多臂老虎机的纯探索的近最优多遍流式下限

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文研究了纯探索问题中具有无限多臂的赌博机问题,提出了两种算法,分别以最小的期望和固定样本复杂度为目标,最终准确选择一个高质量臂,使其平均奖励与前 $η$ 的部分的奖励最大值的差别小于 $ε$,并给出了理论证明。

🎯

关键要点

  • 研究了纯探索问题中的无限多臂赌博机问题
  • 提出了两种算法,分别以最小期望和固定样本复杂度为目标
  • 算法能够准确选择一个高质量臂
  • 高质量臂的平均奖励与前 $η$ 部分的奖励最大值的差别小于 $ε$
  • 提供了理论证明
➡️

继续阅读