学习多维人类偏好的文本到图像生成

💡 原文中文,约1500字,阅读约需4分钟。
📝

内容提要

本研究引入人类喜好数据集和偏好评分模型,以更准确评估文本到图像生成模型的质量。通过人类评分和分类器,提出了一种基于稳定扩散的方法,生成更符合人类审美的图像。同时,开发了ImageReward模型,成为文本到图像合成的有效评估标准。

🎯

关键要点

  • 本研究引入人类喜好数据集 v2 (HPD v2) 和人类偏好评分模型 v2 (HPS v2),以更准确评估文本到图像生成模型的质量。

  • 提出了一种基于稳定扩散的方法,通过调整生成模型,生成更符合人类审美偏好的图像。

  • 构建了高质量和细粒度的用户偏好数据集 VisionPrefer,用于指导文本到图像生成模型的训练。

  • 提出了一种名为 Preference Score(PS)的新型基于学习的评估指标,用于定量评估人类偏好。

  • 介绍了 ImageReward,这是第一个通用的文本到图像人类偏好奖励模型,超越了现有的评分方法。

  • 制作了 Pick-a-Pic 数据集,以收集来自文本到图像用户的大规模偏好数据,并训练了基于 CLIP 的评分函数 PickScore。

  • 提出了一种基于人类反馈训练的自动评估度量标准,用于图像字幕模型,证明了其有效性和鲁棒性。

  • 提供了一个新的多任务基准,用于评估文本到图像模型,并进行了人类评估,比较了不同模型的表现。

  • LLMScore 利用大语言模型为文本到图像合成模型提供多层次的组成性评估得分,与人类评估的相关性显著更高。

延伸问答

什么是人类喜好数据集 v2 (HPD v2)?

人类喜好数据集 v2 (HPD v2) 是用于更准确评估文本到图像生成模型质量的数据集。

ImageReward 模型的主要功能是什么?

ImageReward 是第一个通用的文本到图像人类偏好奖励模型,用于评估和改进文本到图像合成。

如何提高文本到图像生成模型的质量?

通过引入人类评分和偏好分类器,调整生成模型以更符合人类审美偏好,可以提高模型质量。

什么是 Preference Score(PS)?

Preference Score(PS)是一种新型的基于学习的评估指标,用于定量评估人类偏好。

Pick-a-Pic 数据集的用途是什么?

Pick-a-Pic 数据集用于收集来自文本到图像用户的大规模偏好数据,以训练评分函数。

LLMScore 如何评估文本到图像合成模型?

LLMScore 利用大语言模型提供多层次的组成性评估得分,与人类评估的相关性显著更高。

🏷️

标签

➡️

继续阅读