线性赌臂机器人的纳什后悔保证
原文中文,约300字,阅读约需1分钟。发表于: 。在随机线性赌博机的框架中,我们获得了强化的后悔概念的紧密上界。这个强化的后悔概念被称为 Nash 后悔,它被定义为线性赌博机算法累积的预期奖励的几何平均值与(事先未知的)最优解之间的差异。我们开发了一种算法,在有限的臂集和无限的臂集两种情况下,实现了 Nash 后悔的上界。
本文研究了多智能体多臂赌博机方法中的遗憾下界,证明了它们的紧密性。当图表现出良好的连通性和奖励是随机分布时,证明了实例相关上界的 O(log T)下界和平均差值独立上界的 sqrt(T)下界。在对抗奖励的假设下,建立了连接图的 O(T^(2/3))下界。当图表现为不连通时,还展示了线性的遗憾下界。