小红花·文摘

本文研究了分布式和策略性在线学习问题，发现在不完全信息情境中，追随者按照局部最优策略响应领导者的行动；而在附加信息情境中，追随者可以通过策略性行动操控领导者的奖励信号。研究结果表明，分布式在线学习在这两种情境下都能达到最后迭代收敛和样本复杂度方面的结果。设计的操控策略在处理附加信息情境中具有内在优势。实证结果也支持理论结果。