小红花·文摘

本文提出了一种利用离线轨迹数据训练多目标强化学习策略的方法，扩展了单目标正则化技术以解决偏好不一致的问题。通过过滤不一致的演示和高表达能力的正则化，结合偏好条件化更新，降低了计算成本。实证结果表明该方法有效应对离线多目标强化学习问题。