基于状态新颖性引导的深度强化学习行动持久性

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该文章介绍了一种基于模型的强化学习算法,适用于大规模或无限状态空间。该算法通过探索和利用阶段来维护一组与当前体验一致的动态模型,并通过查找引起高度分歧的策略来进行探索。该算法在实现和最优规划的假设下能够得到完美的政策,并使用神经网络进行实用近似,证明了其在实践中的性能和样本效率。

🎯

关键要点

  • 提出了一种基于模型的强化学习算法,适用于大规模或无限状态空间。
  • 该算法包括明确的探索和利用阶段,维护一组与当前体验一致的动态模型。
  • 通过查找在状态预测之间引起高度分歧的策略来进行探索。
  • 利用精细化的模型或在探索过程中收集的体验进行决策。
  • 在实现和最优规划的假设下,算法能够得到完美的政策。
  • 使用神经网络进行实用近似,证明了其在实践中的性能和样本效率。
🏷️

标签

➡️

继续阅读