小红花·文摘

本文研究了结构化强化学习在协同行为中的应用，建立了模型并为表格设置中的协同行为建立了值函数后悔边界。同时，推广和扩展了自然策略梯度分析，并给出了关于样本复杂度的期望和高概率的见解。最后，进行了一个随机匹配玩具模型的模拟。