基于策略梯度的生成流网络训练
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了生成流网络(GFlowNet)在训练过程中策略依赖奖励的问题,提出了一种新颖的训练框架,结合了流平衡和传统强化学习中的期望累积奖励优化。通过开发耦合训练策略来共同解决GFlowNet的前向和反向策略训练,结果显示该方法在性能上优于现有的基于价值的强化学习策略,并能够有效提高GFlowNet的性能。
最近提出的生成流网络(GFlowNets)是一种通过一系列操作,使策略从概率与给定奖励成比例的组合离散对象中采样的方法。这项工作将强化学习和GFlowNets的联系扩展到一般情况,并通过在几个概率建模任务上应用标准的软强化学习算法展示了这种改进的实际效率。