本文提出了一种基于洛伦兹支配的新算法,解决了多目标强化学习中的公平性与可扩展性矛盾。研究表明,该方法在西安和阿姆斯特丹的交通规划中显著提升了政策的公平性和可扩展性。
完成下面两步后,将自动完成登录并继续当前操作。