小红花·文摘

本文探讨了多目标强化学习（MORL）的新算法及其在连续控制问题中的应用，提出了基于效用的范式和新方法，如PD-MORL和DG-MORL，旨在提升算法性能和计算效率。研究表明，良好的奖励信号和适应性强的算法设计能显著改善学习效果，推动MORL领域的发展。