本文提出了一种利用离线轨迹数据训练多目标强化学习策略的方法,扩展了单目标正则化技术以解决偏好不一致的问题。通过过滤不一致的演示和高表达能力的正则化,结合偏好条件化更新,降低了计算成本。实证结果表明该方法有效应对离线多目标强化学习问题。
完成下面两步后,将自动完成登录并继续当前操作。