通过信息松弛改进预算多臂赌博机中的汤普森采样
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文研究了基于Thompson Sampling的有界奖励随机赌博算法,并提出了两种参数化的算法。通过导出更实用的界限,解决了现有问题。这两种算法都能实现较低的后悔界限。
🎯
关键要点
- 研究了基于Thompson Sampling的有界奖励随机赌博算法。
- 导出了更实用的后悔界限,将主要项的系数从288e^64缩小到1270。
- 提出了两种参数化的Thompson Sampling算法:TS-MA-α和TS-TD-α。
- 算法中的参数α∈[0,1]控制效用与计算之间的权衡。
- 这两种算法都能实现O(Kln^(α+1)(T)/Δ)的后悔界限。
➡️