Enderfga's blog ·

Diffusion——RLHF

💡 原文中文，约3400字，阅读约需9分钟。

📝

内容提要

本文总结了两篇使用RLHF微调diffusion的论文。第一篇论文介绍了DDPO方法，通过多步决策问题进行去噪，并使用策略梯度算法进行优化。实验结果显示，DDPO优于RWR。第二篇论文提出了DPOK方法，将策略优化与KL正则化相结合，通过在线强化学习微调文本到图像的模型。实验结果显示，DPOK能够实现文本-图像对齐并保持高图像保真度。

🎯

关键要点

本文总结了两篇使用RLHF微调扩散模型的论文。
第一篇论文介绍了DDPO方法，通过多步决策问题进行去噪，使用策略梯度算法优化。
实验结果显示，DDPO在所有任务上明显优于RWR。
DDPO将去噪过程视为马尔可夫决策过程，定义奖励函数并优化策略。
第二篇论文提出了DPOK方法，将策略优化与KL正则化结合，优化文本到图像的模型。
DPOK通过在线强化学习微调模型，解决文本到图像模型的系统性弱点。
实验结果表明，在线RL微调能够在保持高图像保真度的同时，实现强大的文本-图像对齐。
DPOK方法引入KL正则化，确保更新后的模型不会偏离原始模型太远。

🏷️

继续阅读

vivo Y600 Pro 体验：这部「充电宝手机」，为什么对 vivo 很重要
Y600 Pro 可能是 vivo 今年最重要的一款产品。它不一定最贵、不一定最亮眼，但它代表了 vivo 这家公司对入门级市场的一次重新理解 —— 这个...
Qt Creator 19.0.2版本发布
We are happy to announce the release of Qt Creator 19.0.2! The release fixes ...
Android Auto 全面更新，看齐 Carplay！还有更「懂车」的 Gemini
让 Android Auto 和 Google Built-in 更适应不同车型和不同屏幕，同时继续与苹果 CarPlay 竞争。#欢迎关注爱范儿官方微信...
直播预告 | 智启安全·数生运营——绿盟科技安全数字人平台重磅发布暨系统演示
凌晨时分，你疲惫地点下几万条告警中的第N条；面对堆砌的安全工具，却找不到一个真正贯通的中控枢纽；专家经验难以复Read More
林俊旸果然创业了！一个“Qwen负责人”头衔值135亿
对于一家还没发产品的中国AI初创公司而言，这一估值，几乎没有先例。但相比林俊旸之前同台竞速的硅谷同行，不算贵。
亚马逊的Panos Panay回应新款Fire手机传闻
Amazon's head of devices and services, Panos Panay, says that the company...

Diffusion——RLHF

内容提要

关键要点

标签

继续阅读