FPO——流匹配策略梯度:避开复杂的对数似然计算,通过「最大化基于CFM损失计算优势加权比率」做策略优化,兼容PPO-CLIP
📝
内容提要
本文介绍流策略优化(FPO)算法,这是一种基于条件流匹配(CFM)的策略梯度方法。FPO通过将流匹配损失作为对数似然的替代项,避免了传统流模型复杂的似然计算,直接优化优势加权比值。相比将去噪过程重构为MDP的方法,FPO将采样视为黑盒,保持了标准扩散模型的结构。该算法兼容现有强化学习技术,能处理比高斯策略更复杂的动作分布。理论分析表明,FPO通过优化流匹配损失来提升证据下界(ELBO),使策...
🏷️
标签
➡️