广义线性背景臂机情境下的有限适应度最优遗憾
原文中文,约400字,阅读约需1分钟。发表于: 。我们在有限适应性的条件下研究广义线性情境赌博问题。我们提出了两种算法分别解决两种普遍存在的有限适应性模型:具有随机情境的批量学习和具有对抗情境的罕见策略切换。对于这些模型,我们建立了本质上紧密的遗憾上界。值得注意的是,在我们获得的上界中,我们成功消除了关键参数 kappa 的依赖性,该参数捕捉到底层奖励模型的非线性。对于我们的批量学习算法 B-GLinCB,使用 Ω(log (log...
研究广义线性情境赌博问题,提出两种算法解决有限适应性模型,建立遗憾上界,消除关键参数依赖,实现较低的遗憾。