基于策略梯度的生成流网络训练

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

最近提出的生成流网络(GFlowNets)是一种通过一系列操作,使策略从概率与给定奖励成比例的组合离散对象中采样的方法。这项工作将强化学习和GFlowNets的联系扩展到一般情况,并通过在几个概率建模任务上应用标准的软强化学习算法展示了这种改进的实际效率。

原文中文,约300字,阅读约需1分钟。
阅读原文