用于非动态强化学习的回报增强决策变换器
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种回报增强决策变换器(RADT)方法,旨在利用源域数据提升目标域的策略学习。实验结果表明,该方法在非动态强化学习中优于动态规划。
🎯
关键要点
- 本研究提出了一种回报增强决策变换器(RADT)方法。
- RADT方法旨在利用源域数据提升目标域的策略学习。
- 研究聚焦于离线非动态强化学习。
- 通过调整源域中的回报分布,使其与目标域一致。
- 采用回报条件监督学习(RCSL)有效解决动态变化问题。
- 实验结果表明,RADT方法在非动态强化学习中优于动态规划方法。
➡️