本文提出了一种基于变换器的分层方法,旨在解决离线强化学习中的价值估计误差,简化低级策略训练,并显著提升复杂导航环境中的性能。
本文提出了保守型 Q-learning(CQL)、隐式 Q-learning(IQL)和鲁棒 IQL(RIQL)等离线强化学习方法,旨在解决价值估计和泛化问题。研究表明,CQL在复杂数据分布中表现优越,而IQL则在不直接查询 Q 函数的情况下改进策略。RIQL增强了对数据损坏的抗性,展现出高鲁棒性。这些方法在标准基准测试中表现出色。
完成下面两步后,将自动完成登录并继续当前操作。