本研究提出了一种新框架ACL-QL,旨在解决离线强化学习中Q值过度估计导致的保守政策问题。实验结果表明,ACL-QL在D4RL基准测试中表现优异,显著提升了学习的有效性和安全性。
完成下面两步后,将自动完成登录并继续当前操作。