小红花·文摘

该研究提出VIPO算法，旨在解决离线强化学习中的模型误差导致的保守性问题。VIPO通过最小化离线数据学习的价值与模型估计价值之间的不一致性来增强模型训练。实验结果表明，VIPO在D4RL和NeoRL基准测试中表现优异，提升了模型的准确性。