离线偏好强化学习中的数据集内轨迹返回正则化

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文提出了一种利用离线轨迹数据训练多目标强化学习策略的方法,扩展了单目标正则化技术以解决偏好不一致的问题。通过过滤不一致的演示和高表达能力的正则化,结合偏好条件化更新,降低了计算成本。实证结果表明该方法有效应对离线多目标强化学习问题。

🎯

关键要点

  • 本文提出了一种利用离线轨迹数据训练多目标强化学习策略的方法。
  • 扩展了单目标离线强化学习中的正则化方法以适应多目标设置。
  • 解决了离线多目标强化学习中的偏好不一致演示问题。
  • 提出了两个解决方案:过滤偏好不一致的演示和采用高表达能力的正则化技术。
  • 整合了偏好条件化的标量化更新方法,以减少计算成本。
  • 引入正则化权重适应机制,动态确定目标偏好的正则化权重。
  • 实证结果表明该方法有效应对离线多目标强化学习问题。
➡️

继续阅读