小红花·文摘

通过创建VisionPrefer数据集，利用多模态大型语言模型指导文本到图像生成模型的训练，捕捉人类喜好，优于之前的偏好度量标准。将人工智能生成的合成数据作为监督信号集成到视觉生成模型中，实现与人类偏好更好对齐的有前途的途径。