多目标公共物品博弈中的学习与非线性效用

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文研究了存在战略个体行为的情况下的算法决策,使用机器学习模型对人类个体进行决策,并考虑最大化决策者福利、社会福利和个体福利的目标。研究结果表明,在非线性设置中平衡各方福利是必要的,并提出了一种适用于一般战略学习的优化算法。

🎯

关键要点

  • 研究在存在战略个体行为的情况下的算法决策。
  • 使用机器学习模型作出对人类个体的决策。
  • 个体可以战略性地调整自己的行为以改进未来的数据。
  • 研究重点在于非线性设置,个体通过决策策略的本地信息响应决策策略。
  • 考虑最大化决策者福利、社会福利和个体福利的目标。
  • 理论结果表明,最大化某些参与方的福利会减少其他方的福利。
  • 在非线性设置中平衡各方福利是必要的。
  • 提出了一种适用于一般战略学习的不可缩减优化算法。
  • 通过合成数据和真实数据的实验证实了所提算法。
➡️

继续阅读