线性赌臂机器人的纳什后悔保证

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文研究了多智能体多臂赌博机方法中的遗憾下界,证明了它们的紧密性。当图表现出良好的连通性和奖励是随机分布时,证明了实例相关上界的 O(log T)下界和平均差值独立上界的 sqrt(T)下界。在对抗奖励的假设下,建立了连接图的 O(T^(2/3))下界。当图表现为不连通时,还展示了线性的遗憾下界。

🎯

关键要点

  • 多智能体多臂赌博机方法的遗憾下界研究相对较少。

  • 本文首次全面研究了不同情景下的遗憾下界,并证明了它们的紧密性。

  • 在良好连通性和随机奖励分布的情况下,实例相关上界的 O(log T)下界和平均差值独立上界的 sqrt(T)下界被证明。

  • 在对抗奖励假设下,建立了连接图的 O(T^(2/3))下界。

  • 当图表现为不连通时,展示了线性的遗憾下界。

  • 本文的研究弥合了以前工作中下界与上界之间的差距。

➡️

继续阅读