完美无误:改进文本到图像模型中的空间一致性

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

该文章介绍了一种自动方法,通过生成包含14种显式空间关系的合成标题来改进文本到图像系统的准确性。作者提出了Spatial Relation for Generation (SR4G)数据集,通过训练和测试标题中的对象集不相交的方式来测试泛化性能。实验结果显示,通过微调稳定扩散模型SD$_{SR4G}$可以提高VISOR指标高达9个点,并且在未见过的分割中仍然有效。该方法通过更少的参数改进了最先进的方法,并避免了复杂的架构。

🎯

关键要点

  • 现有文本到图像系统无法准确反映物体之间的显式空间关系。
  • 提出了一种自动方法,生成包含14种显式空间关系的合成标题。
  • 引入了Spatial Relation for Generation (SR4G)数据集,包含990万个图像标题对和超过6万个评估标题。
  • 提供了一个'未见过'的分割,用于测试泛化性能,训练和测试标题中的对象集不相交。
  • SR4G是首个可用于空间微调文本到图像系统的数据集。
  • 微调稳定扩散模型SD$_{SR4G}$可使VISOR指标提升高达9个点。
  • 改进结果在'未见过'的分割中依然有效,表明SD$_{SR4G}$可以推广到未见过的对象。
  • SD$_{SR4G}$通过更少的参数改进了最先进的方法,避免了复杂的架构。
  • 分析显示改进对于所有关系都是一致的。
  • 数据集和代码将公开提供。
➡️

继续阅读