本文探讨了多目标强化学习(MORL)的新算法及其在连续控制问题中的应用,提出了基于效用的范式和新方法,如PD-MORL和DG-MORL,旨在提升算法性能和计算效率。研究表明,良好的奖励信号和适应性强的算法设计能显著改善学习效果,推动MORL领域的发展。
完成下面两步后,将自动完成登录并继续当前操作。