BriefGPT - AI 论文速递 ·

阐明文本到图像扩散模型中的最佳奖励-多样性权衡

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

本文介绍了FineRewards方法，通过细粒度语义奖励提升文本与图像的匹配，优化扩散模型性能。同时提出了Diffusion-KTO和ReNO等新方法，利用人类反馈和噪音优化，提高文本到图像生成的质量和效率。这些方法在多个基准测试中表现优越，解决了与人类偏好不一致的问题。

🎯

❓

FineRewards方法通过引入caption reward和SAM reward两种细粒度语义奖励，从两个语义视角提升文本与图像的匹配，优化扩散模型性能。

Diffusion-KTO方法通过简单的二进制反馈信号优化文本到图像扩散模型的对齐，避免了收集成对偏好数据的复杂性，表现出优越的性能。

ReNO方法通过优化初始噪音，基于人类偏好奖励模型的信号，提高文本到图像模型的推理性能，展现出高效性和有效性。

AlignProp方法通过反向传播奖励梯度，简化了扩散模型与奖励函数的对齐过程，实现了更高的奖励和更少的训练步骤。

TIA2基准用于评估奖励模型与人类评估的一致性，由各种文本提示、图像和人类注释组成。

通过引入强化学习算法和优化奖励函数，提升生成样本的组合性和多样性，从而解决扩散模型与人类偏好不一致的问题。

🏷️