小红花·文摘

本文提出了一种基于洛伦兹支配的多目标强化学习新算法，旨在解决公平性与可扩展性之间的矛盾。研究表明，该方法在西安和阿姆斯特丹的交通规划中显著提升了政策的公平性和可扩展性。