广义线性背景臂机情境下的有限适应度最优遗憾
原文中文,约400字,阅读约需1分钟。
📝
内容提要
研究广义线性情境赌博问题,提出两种算法解决有限适应性模型,建立遗憾上界,消除关键参数依赖,实现较低的遗憾。
🎯
关键要点
-
研究广义线性情境赌博问题,提出两种算法解决有限适应性模型。
-
算法一:具有随机情境的批量学习,遗憾规模为Φ(O(√T))。
-
算法二:具有对抗情境的罕见策略切换,最多更新策略Φ(O(log^2 T))次,遗憾为Φ(O(√T))。
-
建立了遗憾上界,成功消除了关键参数kappa的依赖性。
-
消除kappa依赖的方法可能具有独立的研究价值。
🏷️