该论文提出了一种广义的勘探-开发权衡模型,可以在时间序列上对任意凹奖励和凸度约束进行决策,并对时间范围进行规定。通过扩展UCB算法,提供了一个具有近乎最优的后悔保证的多项式时间算法,同时还提供了更高效的算法。
完成下面两步后,将自动完成登录并继续当前操作。