小红花·文摘

本文研究了斯塔克伯格博弈中的学习动态及其收敛性，提出了基于梯度的学习更新规则和无遗憾算法，以优化多智能体强化学习。研究探讨了不同博弈设置下的均衡概念及学习代理之间的相互影响。

ReLExS：用于Stackelberg无悔学习者的强化学习解释

BriefGPT - AI 论文速递 ·

本文研究了从人类交互数据中准确估计人类主体偏好的方法，并与行为经济学中的均衡概念进行比较。通过四种基于行为均衡模型的估计方法，使用2x2游戏的实验数据进行评估。结果显示，这些行为均衡方法的估计结果比纳什均衡法更准确，并且相对于量纲后悔法，这些行为方法具有更好的命中率。然而，整体均方误差方面，量纲后悔法表现更好。研究还探讨了这些方法之间的差异。

使用重复赌博区分风险偏好

BriefGPT - AI 论文速递 ·