小红花·文摘

本研究提出了一种新框架ACL-QL，旨在解决离线强化学习中Q值过度估计导致的保守政策问题。实验结果表明，ACL-QL在D4RL基准测试中表现优异，显著提升了学习的有效性和安全性。