小红花·文摘

本文提出了一种基于广义Bellman方程的多目标强化学习算法，旨在通过少量样本快速适应新任务并生成最优策略。该算法利用偏好指导更新网络参数，并采用新并行化方法提高采样效率，适用于连续机器人任务。同时，研究探讨了离线强化学习中的分布偏移问题，提出新方法以改善策略学习效果，并在多个基准任务上取得了先进结果。

MODULI：通过扩散模型解锁离线多目标强化学习中的偏好泛化

BriefGPT - AI 论文速递 ·

本研究提出了一种新型多目标强化学习算法PD-MORL，该算法通过偏好指导更新网络参数，并采用并行化方法提高采样效率，适用于连续机器人任务。实验验证了其在高自由度控制问题中的有效性，能够更高效地找到不同权衡解，并在多任务分类和回归问题上表现优越。

学习帕累托集合用于多目标连续机器人控制

BriefGPT - AI 论文速递 ·