BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 -

具有随机有状态策略的高效强化学ä¹

通过对后续政策梯度的跟踪,我们提出了一种训练有状态政策的新方法,将其分解为随机内部状态核和无状态策略,实现了对流行强化学习和模仿学习算法的有状态变体,同时比传统的逆传播算法具有更快和更简单的特点。

本文提出了一种使用反向传播学习连续控制策略的统一框架,支持随机控制。该算法已应用于一个玩具随机控制问题和几个基于物理的控制问题。

反向传播 学习模型 物理控制问题 连续控制策略 随机控制

相关推荐 去reddit讨论