本文提出了一种基于广义Bellman方程的多目标强化学习算法,旨在通过少量样本快速适应新任务并生成最优策略。该算法利用偏好指导更新网络参数,并采用新并行化方法提高采样效率,适用于连续机器人任务。同时,研究探讨了离线强化学习中的分布偏移问题,提出新方法以改善策略学习效果,并在多个基准任务上取得了先进结果。
本研究提出了一种新型多目标强化学习算法PD-MORL,该算法通过偏好指导更新网络参数,并采用并行化方法提高采样效率,适用于连续机器人任务。实验验证了其在高自由度控制问题中的有效性,能够更高效地找到不同权衡解,并在多任务分类和回归问题上表现优越。
完成下面两步后,将自动完成登录并继续当前操作。