小红花·文摘

本研究提出了一种新型多目标强化学习算法PD-MORL，该算法通过偏好指导更新网络参数，并采用并行化方法提高采样效率，适用于连续机器人任务。实验验证了其在高自由度控制问题中的有效性，能够更高效地找到不同权衡解，并在多任务分类和回归问题上表现优越。