无限时间段折现决策过程的汤普森抽样

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

通过建立马尔可夫决策过程模型,研究了汤普森采样算法的渐近行为。提出了一种新的指标,期望剩余遗憾,用于测量当前时期后的最优奖励的遗憾。证明了汤普森采样算法的期望剩余遗憾上界收敛于0。给出了后验采样误差收敛于0的条件,并引入了期望剩余遗憾的概率版本。这个学习概念在更广泛的情况下非常有用。

🎯

关键要点

  • 通过建立马尔可夫决策过程模型,研究汤普森采样算法的渐近行为。
  • 标准(期望)遗憾可能呈超线性增长,无法有效捕捉现实情况的学习概念。
  • 提出新的指标期望剩余遗憾,测量当前时期后的最优奖励的遗憾。
  • 汤普森采样算法的期望剩余遗憾上界收敛于0。
  • 给出汤普森采样后验采样误差收敛于0的条件。
  • 引入期望剩余遗憾的概率版本,并给出其收敛于0的条件。
  • 提供适用于采样算法的学习概念,适用范围更广。
➡️

继续阅读