本论文提出了保守型 Q-learning(CQL),通过学习保守型 Q 函数以解决离线强化学习中的价值估计问题,提高学习性能。CQL 在离线 RL 方法中表现优越,能学习到比现有方法更高的最终回报的策略。
完成下面两步后,将自动完成登录并继续当前操作。