小红花·文摘 - 小红花技术领袖俱乐部

本文提出了一种提高多步GCRL学习效率的方法，并通过实证研究证明该方法在十步学习场景下优于基线和多步GCRL的几个先进模型。

偏差弹性多步离策略目标条件强化学习

BriefGPT - AI 论文速递 ·