用于非动态强化学习的回报增强决策变换器

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了一种回报增强决策变换器(RADT)方法,旨在利用源域数据提升目标域的策略学习。实验结果表明,该方法在非动态强化学习中优于动态规划。

🎯

关键要点

  • 本研究提出了一种回报增强决策变换器(RADT)方法。
  • RADT方法旨在利用源域数据提升目标域的策略学习。
  • 研究聚焦于离线非动态强化学习。
  • 通过调整源域中的回报分布,使其与目标域一致。
  • 采用回报条件监督学习(RCSL)有效解决动态变化问题。
  • 实验结果表明,RADT方法在非动态强化学习中优于动态规划方法。
➡️

继续阅读