具有自适应对手的稀疏不可知线性赌博机
原文中文,约400字,阅读约需1分钟。发表于: 。我们研究了随机线性臂问题,在每一轮中,学习者接收一组动作(即特征向量),从中选择一个元素并获得随机奖励。期望奖励是所选动作的一个固定但未知的线性函数。我们研究了稀疏遗憾界,其依赖于线性奖励函数中的非零系数数目 $S$。先前的研究关注 $S$ 已知的情况,或者动作集满足额外假设的情况。在这项研究中,我们首次获得了在 $S$...
本研究探讨了随机线性臂问题,研究了稀疏遗憾界在未知系数数目和对手生成动作集的情况下的应用。通过在线转换为置信区间,并结合层级置信区间随机模型选择方法,提出了一种新颖的技术。实验证明,该方法在提高随机线性臂问题的性能方面具有潜力。