Improving Object State Representation in Text-to-Image Generation

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

目前文本到图像生成模型在物体状态表示上存在困难。本文提出一种全自动流程生成高质量合成数据,以准确捕捉物体不同状态,并微调多个开源模型。研究表明,微调后模型在生成图像与提示文本的对齐度上平均提升超过8%。

🎯

关键要点

  • 目前的文本到图像生成模型在准确表示物体状态方面存在困难。
  • 本文提出了一种全自动流程生成高质量合成数据,以准确捕捉物体的不同状态。
  • 在这些合成数据上微调多个开源文本生成模型。
  • 研究表明,经过微调的模型在生成图像与提示文本的对齐度上平均提升了超过8%。
  • 在特定数据集上,模型的表现平均提高了超过24%。
➡️

继续阅读