基于后验采样的时态 POMDP 学习算法的遗憾分析
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
该研究提出了一种增强的反馈模型,可在后见中收集多个额外观察量来实现样本高效学习。该模型适用于两个新的 POMDP 子类:多观察揭示 POMDP 和可区分 POMDP。
🎯
关键要点
- 该研究针对部分可观察马尔可夫决策过程的样本效率进行研究。
- 提出了一种增强的反馈模型,以实现样本高效学习。
- 该模型可以在后见中收集多个额外观察量。
- 模型适用于两个新的 POMDP 子类:多观察揭示 POMDP 和可区分 POMDP。
- 这两个子类放宽了传统的揭示 POMDP 的要求。
➡️