💡
原文中文,约3400字,阅读约需9分钟。
📝
内容提要
本文总结了两篇使用RLHF微调diffusion的论文。第一篇论文介绍了DDPO方法,通过多步决策问题进行去噪,并使用策略梯度算法进行优化。实验结果显示,DDPO优于RWR。第二篇论文提出了DPOK方法,将策略优化与KL正则化相结合,通过在线强化学习微调文本到图像的模型。实验结果显示,DPOK能够实现文本-图像对齐并保持高图像保真度。
🎯
关键要点
- 本文总结了两篇使用RLHF微调扩散模型的论文。
- 第一篇论文介绍了DDPO方法,通过多步决策问题进行去噪,使用策略梯度算法优化。
- 实验结果显示,DDPO在所有任务上明显优于RWR。
- DDPO将去噪过程视为马尔可夫决策过程,定义奖励函数并优化策略。
- 第二篇论文提出了DPOK方法,将策略优化与KL正则化结合,优化文本到图像的模型。
- DPOK通过在线强化学习微调模型,解决文本到图像模型的系统性弱点。
- 实验结果表明,在线RL微调能够在保持高图像保真度的同时,实现强大的文本-图像对齐。
- DPOK方法引入KL正则化,确保更新后的模型不会偏离原始模型太远。
➡️