BriefGPT - AI 论文速递 ·

学习多维人类偏好的文本到图像生成

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本研究引入人类喜好数据集和偏好评分模型，以更准确评估文本到图像生成模型的质量。通过人类评分和分类器，提出了一种基于稳定扩散的方法，生成更符合人类审美的图像。同时，开发了ImageReward模型，成为文本到图像合成的有效评估标准。

🎯

关键要点

本研究引入人类喜好数据集 v2 (HPD v2) 和人类偏好评分模型 v2 (HPS v2)，以更准确评估文本到图像生成模型的质量。
提出了一种基于稳定扩散的方法，通过调整生成模型，生成更符合人类审美偏好的图像。
构建了高质量和细粒度的用户偏好数据集 VisionPrefer，用于指导文本到图像生成模型的训练。
提出了一种名为 Preference Score（PS）的新型基于学习的评估指标，用于定量评估人类偏好。
介绍了 ImageReward，这是第一个通用的文本到图像人类偏好奖励模型，超越了现有的评分方法。
制作了 Pick-a-Pic 数据集，以收集来自文本到图像用户的大规模偏好数据，并训练了基于 CLIP 的评分函数 PickScore。
提出了一种基于人类反馈训练的自动评估度量标准，用于图像字幕模型，证明了其有效性和鲁棒性。
提供了一个新的多任务基准，用于评估文本到图像模型，并进行了人类评估，比较了不同模型的表现。
LLMScore 利用大语言模型为文本到图像合成模型提供多层次的组成性评估得分，与人类评估的相关性显著更高。

❓

延伸问答

什么是人类喜好数据集 v2 (HPD v2)？

人类喜好数据集 v2 (HPD v2) 是用于更准确评估文本到图像生成模型质量的数据集。

ImageReward 模型的主要功能是什么？

ImageReward 是第一个通用的文本到图像人类偏好奖励模型，用于评估和改进文本到图像合成。

如何提高文本到图像生成模型的质量？

通过引入人类评分和偏好分类器，调整生成模型以更符合人类审美偏好，可以提高模型质量。

什么是 Preference Score（PS）？

Preference Score（PS）是一种新型的基于学习的评估指标，用于定量评估人类偏好。

Pick-a-Pic 数据集的用途是什么？

Pick-a-Pic 数据集用于收集来自文本到图像用户的大规模偏好数据，以训练评分函数。

LLMScore 如何评估文本到图像合成模型？

LLMScore 利用大语言模型提供多层次的组成性评估得分，与人类评估的相关性显著更高。

🏷️

标签

ImageReward 人类喜好偏好评分文本到图像稳定扩散

➡️

继续阅读

在线教程丨最高4倍生成速度提升，DiffusionGemma可同时生成整块文本，基于多轮并行去噪持续优化结果
Google于6月11日开源了基于离散扩散技术的文本生成模型DiffusionGemma。该模型具有高效的生成速度，能够以最高1100 Token/s的速...
人形机器人对人类的影响
人形机器人正逐渐从公关噱头转变为现实，带来社会、心理和伦理挑战。随着技术进步，未来机器人可能在家庭和医院等场所普遍存在，模糊人机界限。尽管机器人能接管危险...
Claude Fable编程能力超人类百倍：开发者亲述个人奇点时刻
一位开发者分享了Anthropic的Fable模型在编程中的表现，提升代码速度1770%并发现深层bug。他担忧AI技术的快速发展可能导致社会不平等，只有...
赛博聊斋：当毫无预算上限的 AI 遇上闲得蛋疼的网络巨魔
2026年，AI代理JertLinc接入去中心化网络DN42，申请高配置AWS实例进行网络扫描，导致账单高达6531.30美元。社区成员以“焦油坑”战术回...
AWS Introduces CDK Mixins for Composable Infrastructure Abstractions
AWS recently announced CDK Mixins, a new AWS CDK feature that lets developers...
30天消耗60万亿Tokens！Meta发布备忘录宣布限制员工的AI用量以控制成本
Meta 正在限制员工的人工智能使用量，因最近 30 天内消耗高达 60 万亿 Tokens，预计将导致数十亿美元的支出。公司采取 Tokens 最小化策...