具有公平性保证的可扩展多目标强化学习:使用洛伦兹支配

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文提出了一种基于洛伦兹支配的新算法,解决了多目标强化学习中的公平性与可扩展性矛盾。研究表明,该方法在西安和阿姆斯特丹的交通规划中显著提升了政策的公平性和可扩展性。

🎯

关键要点

  • 提出了一种基于洛伦兹支配的新算法
  • 解决了多目标强化学习中的公平性与可扩展性矛盾
  • 该算法能够灵活考虑多目标问题中的公平性偏好
  • 研究结果显示该方法在西安和阿姆斯特丹的交通规划中显著提升了政策的公平性和可扩展性
➡️

继续阅读