具有自适应对手的稀疏不可知线性赌博机

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本研究探讨了随机线性臂问题,研究了稀疏遗憾界在未知系数数目和对手生成动作集的情况下的应用。通过在线转换为置信区间,并结合层级置信区间随机模型选择方法,提出了一种新颖的技术。实验证明,该方法在提高随机线性臂问题的性能方面具有潜力。

🎯

关键要点

  • 本研究探讨了随机线性臂问题,学习者在每一轮中选择一个动作并获得随机奖励。
  • 期望奖励是所选动作的固定但未知的线性函数。
  • 研究了稀疏遗憾界,依赖于线性奖励函数中的非零系数数目 $S$。
  • 首次获得了在 $S$ 未知且动作集由对手生成时的稀疏遗憾界。
  • 提出了一种新颖的技术,将在线转换为置信区间,并结合层级置信区间随机模型选择方法。
  • 当 $S$ 已知时,分析恢复了对手动作集的最先进界限。
  • 方法的一种变体使用 Exp3 动态选择置信区间,提高了随机线性臂问题的实证性能。
➡️

继续阅读