离线约束强化学习的低秩 MDP 原始 - 对偶算法
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
该研究提出了一种基于内核和神经函数逼近的乐观 value 迭代探索算法,用于解决无奖励的强化学习问题。该方法可以在提供任意外界奖励的情况下,实现产生准最优策略或近似 Nash 均衡的复杂性为 O (1/epsilon^2) 的采样复杂度。这是首个可以证明有效的应用内核和神经函数逼近的无奖励强化学习算法。
🎯
关键要点
- 该研究针对强化学习中的探索困境问题。
- 提出了一种基于内核和神经函数逼近的乐观 value 迭代探索算法。
- 该方法可以在提供任意外界奖励的情况下,实现准最优策略或近似 Nash 均衡。
- 该算法的采样复杂度为 O (1/epsilon^2)。
- 这是首个可以证明有效的应用内核和神经函数逼近的无奖励强化学习算法。
➡️