Improving Object State Representation in Text-to-Image Generation
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
目前文本到图像生成模型在物体状态表示上存在困难。本文提出一种全自动流程生成高质量合成数据,以准确捕捉物体不同状态,并微调多个开源模型。研究表明,微调后模型在生成图像与提示文本的对齐度上平均提升超过8%。
🎯
关键要点
- 目前的文本到图像生成模型在准确表示物体状态方面存在困难。
- 本文提出了一种全自动流程生成高质量合成数据,以准确捕捉物体的不同状态。
- 在这些合成数据上微调多个开源文本生成模型。
- 研究表明,经过微调的模型在生成图像与提示文本的对齐度上平均提升了超过8%。
- 在特定数据集上,模型的表现平均提高了超过24%。
➡️