具有éšæœºæœ‰çŠ¶æ€ç–略的高效强化å¦ä¹ 通过对后续政策梯度的跟踪,我们提出了一种训练有状态政策的新方法,将其分解为随机内部状态核和无状态策略,实现了对流行强化学习和模仿学习算法的有状态变体,同时比传统的逆传播算法具有更快和更简单的特点。 本文提出了一种使用反向传播学习连续控制策略的统一框架,支持随机控制。该算法已应用于一个玩具随机控制问题和几个基于物理的控制问题。