Scalable Multi-Objective Reinforcement Learning with Fairness Guarantees: Using Lorenz Dominance

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文提出了一种基于洛伦兹支配的多目标强化学习新算法,旨在解决公平性与可扩展性之间的矛盾。研究表明,该方法在西安和阿姆斯特丹的交通规划中显著提升了政策的公平性和可扩展性。

🎯

关键要点

  • 本文提出了一种基于洛伦兹支配的多目标强化学习新算法。
  • 该算法旨在解决公平性与可扩展性之间的矛盾。
  • 研究表明,该方法在西安和阿姆斯特丹的交通规划中显著提升了政策的公平性和可扩展性。
  • 多目标强化学习(MORL)旨在学习一组优化多个相互冲突目标的策略。
  • MORL在计算上比单目标强化学习更复杂,尤其是当目标数量增加时。
➡️

继续阅读