使用分数后验信息的汤普森抽样泛化遗憾分析

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文介绍了 Thompson sampling 方法(MP-TS)及其改进版本,证明其具有最优后悔上界。

🎯

关键要点

  • 本文提出了多次试验下的 Thompson sampling 方法(MP-TS)。
  • MP-TS 经过后效分析,证明了其具有最优后悔上界。
  • MP-TS 的最优后悔上界与 Anantharam 等人提供的最佳后悔下界相匹配。
  • 通过计算机模拟验证了 MP-TS 的有效性。
  • 提出了 MP-TS 的改进版本,显示出更好的实际效果。
➡️

继续阅读