RelationBooth:面向关系感知的定制对象生成

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

现有文本到图像系统未能准确反映物体间的空间关系。为此,提出SR4G数据集,包含990万个图像标题对,旨在提升模型性能。微调稳定扩散模型后,VISOR指标提升9点,且在未见过的对象上依然有效。数据集和代码将公开发布。

🎯

关键要点

  • 现有文本到图像系统不能准确反映物体之间的显式空间关系。
  • 提出SR4G数据集,包含990万个图像标题对,旨在提升模型性能。
  • SR4G数据集包含超过6万个用于评估的标题,并提供'未见过'的分割以测试泛化性能。
  • 微调稳定扩散模型后,VISOR指标提升高达9个点,且在未见过的对象上依然有效。
  • SD$_{SR4G}$通过更少的参数改进了最先进的方法,避免了复杂的架构。
  • 数据集和代码将公开发布。
➡️

继续阅读