小红花·文摘

本研究提出了NeoRL-2基准，旨在解决离线强化学习中的数据保守性和环境访问限制问题。该基准应对现实世界中的高延迟效应和安全约束，实验结果显示现有方法在这些基准上表现不佳，强调了对更有效算法的需求。