线性赌臂机器人的纳什后悔保证

BriefGPT - AI 论文速递 ·

本文研究了多智能体多臂赌博机方法中的遗憾下界，证明了它们的紧密性。当图表现出良好的连通性和奖励是随机分布时，证明了实例相关上界的 O（log T）下界和平均差值独立上界的 sqrt（T）下界。在对抗奖励的假设下，建立了连接图的 O（T^（2/3））下界。当图表现为不连通时，还展示了线性的遗憾下界。

多智能体多臂赌博机对抗奖励机器人紧密性连通性遗憾下界

原文中文，约300字，阅读约需1分钟。