本文介绍了一种新型在线学习算法,优化了上下文多臂赌博问题,具有统计最优保证和高效性能。研究涵盖了将上下文强化学习转化为在线回归问题及在稀疏数据条件下的决策优化。实验结果表明,该算法在后悔值和计算效率上优于现有方法。
该论文提出了基于UCB算法的解决上下文多臂赌博问题的方法,并介绍了延迟利用和机会抽样的概念。
完成下面两步后,将自动完成登录并继续当前操作。