学习多维人类偏好的文本到图像生成
原文中文,约400字,阅读约需1分钟。发表于: 。通过引入偏爱条件模块到 CLIP 模型,我们提出了首个用于评估文本到图像模型的多维度偏好评分模型,称为 Multi-dimensional Preference Score(MPS)。MPS 在我们的 Multi-dimensional Human Preference(MHP)数据集上进行训练,在四个维度(审美、语义一致性、细节质量和整体评估)上获得 918,315...
研究人员通过引入偏爱条件模块到CLIP模型,提出了首个用于评估文本到图像模型的多维度偏好评分模型MPS。MPS在多维人类偏好数据集上训练,优于现有评分方法,为改进文本到图像生成提供了有希望的指标。