小红花·文摘

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以解决离线强化学习中的价值估计问题，提高学习性能。CQL 在离线 RL 方法中表现优越，能学习到比现有方法更高的最终回报的策略。