小红花·文摘

本文提出了一种基于随机模型的方法，几乎确定地保证了强化学习的安全性。通过预测状态表示和再生核希尔伯特空间，对未来的多步观测进行了解析表示，并通过核贝叶斯规则导出了关键操作，可以递归估计未来的观测。建立了多项式样本复杂度，确保了 ε- 次优安全策略保证。

BriefGPT - AI 论文速递 ·

该研究提出了一种增强的反馈模型，可在后见中收集多个额外观察量来实现样本高效学习。该模型适用于两个新的 POMDP 子类：多观察揭示 POMDP 和可区分 POMDP。

BriefGPT - AI 论文速递 ·