SOAP-RL: POMDP 环境中的强化学习的连续选项优势传播
📝
内容提要
该研究比较了将强化学习算法扩展到带有选项的部分可观察的马尔可夫决策过程(POMDPs)的方法,并提出了 PPOEM 和 SOAP 两种算法来解决该问题。与竞争基准相比,SOAP 表现最稳健,在 POMDP 环境中正确发现选项,并在 Atari 和 MuJoCo 等标准基准上优于 PPOEM、LSTM 和 Option-Critic 基准。
🏷️
标签
➡️