该研究提出了一种增强的反馈模型,可在后见中收集多个额外观察量来实现样本高效学习。该模型适用于两个新的 POMDP 子类:多观察揭示 POMDP 和可区分 POMDP。
完成下面两步后,将自动完成登录并继续当前操作。