上下文决斗赌徒的良好感知汤普森抽样

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本研究提出了一种基于在线随机梯度下降的广义线性赌博机算法,能够在探索与利用之间取得平衡,在合成和实际数据集上始终优于现有算法。总时间复杂度为T和d的线性比例,其中T是总轮次数,d是特征数量,并实现了O(T)的遗憾,其中T是回合数。

🎯

关键要点

  • 本研究提出了一种基于在线随机梯度下降的广义线性赌博机算法。
  • 该算法使用单步SGD更新来利用过去的信息。
  • 通过汤普森抽样实现探索,能够在探索与利用之间取得平衡。
  • 在合成和实际数据集上,该算法始终优于现有算法。
  • 总时间复杂度为T和d的线性比例,其中T是总轮次数,d是特征数量。
  • 实现了O(T)的遗憾,其中T是回合数。
➡️

继续阅读