具有可证明保证的非线性多目标强化学习
原文中文,约300字,阅读约需1分钟。发表于: 。RA-E3 是一个算法,能够解决单目标或多目标的马尔可夫决策过程中的奖励积累函数期望值最大化问题,并且可以用于多目标强化学习中的公平感知、风险感知以及以非线性 Von Neumann-Morgenstern 效用函数进行的单目标强化学习。该算法基于扩展的非线性优化 Bellman 最优性,明确考虑了时间和当前累积奖励,并通过多项式时间教学学习一个近似最优策略。
该文介绍了一种适用于大规模或无限状态空间的基于模型的强化学习算法,包括明确的探索和利用阶段,维护一组与当前体验一致的动态模型,并通过查找在状态预测之间引起高度分歧的策略来进行探索。该算法能够用多项式结构复杂度度量在很多自然设置中得到完美的政策,并给出了一个使用神经网络的实用近似,并证明了它在实践中的性能和样本效率。