本研究提出了Proj-IQL算法,旨在解决离线强化学习中的外推误差问题。通过引入支持约束和矢量投影技术,优化策略评估与改进。实验结果表明,Proj-IQL在D4RL基准测试中表现优异,尤其在复杂导航任务中。
完成下面两步后,将自动完成登录并继续当前操作。