与交互相关的阿苏阿、法诺和勒卡姆:统一的下界框架及带宽学习能力的特征化
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文全面研究了多智能体多臂赌博机在不同情境下的遗憾下界,证明了其紧密性。在良好连通性和随机奖励下,得到了实例相关上界为O(log T)和平均差值独立上界为sqrt(T)。在对抗奖励下,建立了O(T^(2/3))的下界。不连通图则表现出线性遗憾下界。
🎯
关键要点
- 多智能体多臂赌博机方法在遗憾下界研究中受到关注。
- 本文首次全面研究了不同情景下的遗憾下界,并证明了其紧密性。
- 在良好连通性和随机奖励下,实例相关上界为O(log T),平均差值独立上界为sqrt(T)。
- 在对抗奖励的情况下,建立了O(T^(2/3))的下界。
- 不连通图表现出线性的遗憾下界。
- 本文的研究弥合了以前工作中下界与上界之间的差距。
➡️