本文探讨了战略代理在推荐系统中操控上下文的线性上下文赌博问题,提出了乐观严厉触发机制(OptGTM),旨在激励代理诚实并最小化遗憾。研究表明,OptGTM在代理操控学习算法时仍能实现次线性遗憾,而忽视代理的战略性则会导致线性遗憾。此研究揭示了在线学习与机制设计的交集。
本文研究了在线控制未知动态的时变线性系统,提出了一种高效的干扰响应算法,并证明了其适应性悔恨界的优势。同时,探讨了在已知嘈杂动力学下的线性时不变系统的在线学习算法,提出了新的控制器参数化方法,以提高控制效果并实现次线性遗憾。
研究提出了一种新的联邦多臂老虎机问题,通过通信网络合作。算法FEDEXP3可以在不交换代理之间选择的手臂编号或损失序列的情况下得到次线性遗憾。数值评估证明了该算法的有效性。
完成下面两步后,将自动完成登录并继续当前操作。