BriefGPT - AI 论文速递 ·

长模型推演不是坏 Q - 值估计的理由

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文探讨了一种基于模型的离线强化学习方法，通过生成虚拟轨迹和期望回归提高样本效率，解决生成数据的偏差问题。研究表明，该方法在长时程任务中表现优越，并优化真实策略的价值下限。作者提出的新算法COMBO和RFQI在离线强化学习基准测试中展现了持续改进和卓越性能。

🎯

❓

长模型推演在处理长时程任务方面明显优于以前的方法，并且能够优化真实策略的价值下限。

COMBO算法通过对已学习模型下的滚动状态动作元组进行价值函数正则化，优化真实策略价值的下限。

RFQI算法能够学习到近乎最优的稳健策略，并在标准基准测试问题上展现出卓越的性能表现。

期望回归和λ-returns被用来缓解模型轨迹中的高偏差，从而提高样本效率。

核心挑战是生成数据的容易程度与模型生成数据的偏差之间的平衡问题。

通过生成虚拟轨迹和使用期望回归，长模型推演能够有效提高样本效率。

🏷️