目前文本到图像生成模型在物体状态表示上存在困难。本文提出一种全自动流程生成高质量合成数据,以准确捕捉物体不同状态,并微调多个开源模型。研究表明,微调后模型在生成图像与提示文本的对齐度上平均提升超过8%。
该研究提出了两个新的损失函数,用于解决文本到图像综合中的对齐问题。实验证明,该方法可以轻松有效地集成到现有方法中,并提高生成图像与文本提示之间的对齐度。
完成下面两步后,将自动完成登录并继续当前操作。