BAMDP塑形:内在动机与奖励塑形的统一理论框架

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究探讨了马尔可夫决策过程在强化学习中的作用,研究了与强化学习相关的成本,开发了新的估计器,并提出了安全强化学习研究方法和规划算法。

🎯

关键要点

  • 马尔可夫决策过程在强化学习中起关键作用。
  • 研究了与强化学习相关的多种成本。
  • 研究了策略评估的样本复杂度。
  • 开发了一种具有实例特定误差界限的新估计器。
  • 在在线遗憾最小化设置下,提供了基于奖励的常量和基于潜力的奖励塑形技术的理论解释。
  • 提出了一种安全强化学习研究方法,建立了重置效率的量化概念。
  • 开发了一个能够计算出帕累托最优随机策略的规划算法,针对具有多个奖励函数的决策过程。
➡️

继续阅读