目前文本到图像生成模型在物体状态表示上存在困难。本文提出一种全自动流程生成高质量合成数据,以准确捕捉物体不同状态,并微调多个开源模型。研究表明,微调后模型在生成图像与提示文本的对齐度上平均提升超过8%。
这篇论文研究了多种语言模型作为判断者的表现,强调Cohen's kappa对齐度的重要性。结果显示,Llama-3 70B和GPT-4 Turbo优于人类,而JudgeLM-7B和Contains的对齐度比人类低34分。错误分析为未来使用语言模型作为判断者提供了经验。
该研究提出了两个新的损失函数,用于解决文本到图像综合中的对齐问题。实验证明,该方法可以轻松有效地集成到现有方法中,并提高生成图像与文本提示之间的对齐度。
完成下面两步后,将自动完成登录并继续当前操作。