小红花·文摘

本研究提出了Proj-IQL算法，旨在解决离线强化学习中的外推误差问题。通过引入支持约束和矢量投影技术，优化策略评估与改进。实验结果表明，Proj-IQL在D4RL基准测试中表现优异，尤其在复杂导航任务中。