小红花·文摘

本文提出了一系列多目标强化学习算法，旨在提高任务适应性和策略生成效率。研究包括基于广义Bellman方程的算法、动态权重的偏好推断方法和示范引导的多目标强化学习（DG-MORL），并在复杂机器人任务和能源管理中验证了其有效性。这些方法显著提升了推断效率和准确性。