马尔可夫决策过程中的几何主动探索:抽象的好处
原文中文,约300字,阅读约需1分钟。发表于: 。这篇研究论文介绍了利用强化学习(Reinforcement Learning)算法设计动力系统状态空间上的实验的方法,通过将优化问题转化为凸强化学习(Convex RL),并利用几何结构进行抽象,提出了具有统计和计算效率优势的几何主动探索(Geometric Active Exploration)算法。
该文章介绍了一种适用于大规模或无限状态空间的基于模型的强化学习算法,通过维护一组与当前体验一致的动态模型,并进行探索和利用阶段,来寻找在状态预测中引起高度分歧的策略。作者证明该算法在实现和最优规划的假设下能够在许多自然设置中得到完美的政策,并提出了使用神经网络的实用近似方法,证明了其在实践中的性能和样本效率。