小红花·文摘

私有对抗性赌博机的更快速率

Apple Machine Learning Research ·

该文介绍了一种针对多人普遍和马尔可夫博弈中追随者为短视情况的强化学习算法，通过最小二乘值迭代来求得 Stackelberg-Nash 均衡。该算法在大状态空间的函数逼近工具中简单应用，并在具有线性函数逼近的情况下分别在在线和离线设置下证明了亚线性遗憾和亚最优性，为解决追随者为短视的普遍和马尔可夫博弈的 SNE 建立了第一个可以被证明高效的强化学习算法。

斯塔克伯格批量策略学习

BriefGPT - AI 论文速递 ·

本文提出了一种集群上下文强化学习算法，具有亚线性遗憾和不需要访问所有臂的特点。通过结合计量经济学和约束条件强化学习，实现了最大化总回报的目标。

聚类线性情境强化学习与背匠

BriefGPT - AI 论文速递 ·