上下文决斗赌徒的良好感知汤普森抽样
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本研究提出了一种基于在线随机梯度下降的广义线性赌博机算法,能够在探索与利用之间取得平衡,在合成和实际数据集上始终优于现有算法。总时间复杂度为T和d的线性比例,其中T是总轮次数,d是特征数量,并实现了O(T)的遗憾,其中T是回合数。
🎯
关键要点
- 本研究提出了一种基于在线随机梯度下降的广义线性赌博机算法。
- 该算法使用单步SGD更新来利用过去的信息。
- 通过汤普森抽样实现探索,能够在探索与利用之间取得平衡。
- 在合成和实际数据集上,该算法始终优于现有算法。
- 总时间复杂度为T和d的线性比例,其中T是总轮次数,d是特征数量。
- 实现了O(T)的遗憾,其中T是回合数。
➡️