Diffusion——RLHF

Diffusion——RLHF

💡 原文中文,约3400字,阅读约需9分钟。
📝

内容提要

本文总结了两篇使用RLHF微调diffusion的论文。第一篇论文介绍了DDPO方法,通过多步决策问题进行去噪,并使用策略梯度算法进行优化。实验结果显示,DDPO优于RWR。第二篇论文提出了DPOK方法,将策略优化与KL正则化相结合,通过在线强化学习微调文本到图像的模型。实验结果显示,DPOK能够实现文本-图像对齐并保持高图像保真度。

🎯

关键要点

  • 本文总结了两篇使用RLHF微调扩散模型的论文。
  • 第一篇论文介绍了DDPO方法,通过多步决策问题进行去噪,使用策略梯度算法优化。
  • 实验结果显示,DDPO在所有任务上明显优于RWR。
  • DDPO将去噪过程视为马尔可夫决策过程,定义奖励函数并优化策略。
  • 第二篇论文提出了DPOK方法,将策略优化与KL正则化结合,优化文本到图像的模型。
  • DPOK通过在线强化学习微调模型,解决文本到图像模型的系统性弱点。
  • 实验结果表明,在线RL微调能够在保持高图像保真度的同时,实现强大的文本-图像对齐。
  • DPOK方法引入KL正则化,确保更新后的模型不会偏离原始模型太远。
➡️

继续阅读