透过部分监督强化学习学习后见可观测部分可解释策略

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种基于随机模型的方法,几乎确定地保证了强化学习的安全性。通过预测状态表示和再生核希尔伯特空间,对未来的多步观测进行了解析表示,并通过核贝叶斯规则导出了关键操作,可以递归估计未来的观测。建立了多项式样本复杂度,确保了 ε- 次优安全策略保证。

🎯

关键要点

  • 探讨部分可观察环境下的安全强化学习问题,旨在实现安全可达性目标。
  • 提出了一种基于随机模型的方法,几乎确定地保证了强化学习的安全性。
  • 利用预测状态表示和再生核希尔伯特空间,对未来的多步观测进行了解析表示。
  • 通过核贝叶斯规则导出了关键操作,可以递归估计未来的观测。
  • 在假设观测和动作空间无限大的情况下,建立了多项式样本复杂度。
  • 确保了 ε- 次优安全策略保证。
➡️

继续阅读