本研究探讨了多目标强化学习中的目标权衡问题,提出了一种基于聚类的方法,揭示了政策行为与目标值之间的关系。结果表明,该方法在四个多目标环境中优于传统的k-中点聚类,具有实际应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。