BriefGPT - AI 论文速递 ·

线性贝尔曼完备性足以实现少动作高效在线强化学习

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文研究了具有线性函数逼近的离线强化学习问题，提出了一种高效算法，能够在单策略覆盖条件下输出与数据集覆盖良好的策略相当的价值。该算法在固有贝尔曼误差为零的情况下提供了首次保证，并表明任何算法需多项式大小的样本复杂度来学习非平凡策略，同时探讨了在线与离线强化学习的差异。

🎯

❓

线性贝尔曼完备性是指在固有贝尔曼误差为零的情况下，线性值函数能够有效地进行贝尔曼备份。

本文提出的算法具有高效计算能力，能够在单策略覆盖条件下输出与数据集覆盖良好的策略相当的价值。

离线强化学习依赖于已有的数据集进行学习，而在线强化学习则是在与环境交互中实时学习。

任何算法都需要多项式大小的样本复杂度来学习非平凡策略。

固有贝尔曼误差的正值会导致算法的次最优误差与固有贝尔曼误差的平方根成比例。

离线值函数逼近方法需要有限制的覆盖条件，超出监督学习的表示条件。

🏷️