带专家建议的强盗问题的改进遗憾界限

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文研究了多智能体多臂赌博机方法的遗憾下界,证明了在不同情景下的紧密性。当图表现出良好的连通性和奖励是随机分布时,遗憾下界为O(log T)和sqrt(T)。在对抗奖励的假设下,遗憾下界为O(T^(2/3))。当图不连通时,遗憾下界为线性。与以前的研究相比,本文全面研究了这些情景下的紧密下界。

🎯

关键要点

  • 多智能体多臂赌博机方法的遗憾下界研究相对较少。
  • 本文首次全面研究了不同情景下的遗憾下界及其紧密性。
  • 当图表现出良好的连通性且奖励随机分布时,遗憾下界为O(log T)和sqrt(T)。
  • 在对抗奖励假设下,遗憾下界为O(T^(2/3))。
  • 当图不连通时,遗憾下界为线性。
  • 本文弥合了以前工作中下界与上界之间的差距。
➡️

继续阅读