基于 ODE 的无模型循环强化学习在 POMDP 中的应用

通过结合神经常微分方程和无模型强化学习,我们提出了一种新颖的基于 ODE 的循环模型用于解决部分可观察的马尔可夫决策过程,通过模型推断从历史过渡中提取不可观测的动态相关信息,并通过多个实验验证了方法的有效性和鲁棒性,尤其在处理不规则采样的时间序列方面。

该文介绍了一种基于ODE的循环模型,用于解决部分可观察的马尔可夫决策过程。该模型能够从历史过渡中提取不可观测的动态相关信息,并在处理不规则采样的时间序列方面表现出有效性和鲁棒性。

原文中文,约200字,阅读约需1分钟。发表于:
阅读原文