高维线性多臂赌博机与背包问题

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该论文提出了一种广义的勘探-开发权衡模型,可以在时间序列上对任意凹奖励和凸度约束进行决策,并对时间范围进行规定。通过扩展UCB算法,提供了一个具有近乎最优的后悔保证的多项式时间算法,同时还提供了更高效的算法。

🎯

关键要点

  • 提出了一种广义的勘探-开发权衡模型。

  • 该模型允许在时间序列上对任意凹奖励和凸度约束进行决策。

  • 模型规定了时间范围。

  • 扩展了UCB算法,提供了近乎最优的后悔保证的多项式时间算法。

  • 满足Badanidiyuru等人给出的BwK特殊情况下的边界。

  • 建立了此问题与其他研究领域中好的算法之间的有趣联系,提供了更高效的算法。

➡️

继续阅读