仅受罚 Q 学习用于离线强化学习
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本论文提出了保守型 Q-learning(CQL),通过学习保守型 Q 函数以解决离线强化学习中的价值估计问题,提高学习性能。CQL 在离线 RL 方法中表现优越,能学习到比现有方法更高的最终回报的策略。
🎯
关键要点
- 提出了保守型 Q-learning(CQL)
- CQL 通过学习保守型 Q 函数解决离线强化学习中的价值估计问题
- CQL 提高了学习性能
- 在实验中,CQL 应用于复杂和多模态数据分布
- CQL 在离线 RL 方法中表现优越
- CQL 能学习到比现有方法 2 到 5 倍更高的最终回报的策略
➡️