完美无误:改进文本到图像模型中的空间一致性

原文约500字,阅读约需2分钟。发表于:

当前文本到图像模型在生成空间关系时存在问题,本文通过创建新的数据集 SPRIGHT 和优化训练方法,提高了空间一致性,并为进一步研究提供了数据集和模型。

该文章介绍了一种自动方法,通过生成包含14种显式空间关系的合成标题来改进文本到图像系统的准确性。作者提出了Spatial Relation for Generation (SR4G)数据集,通过训练和测试标题中的对象集不相交的方式来测试泛化性能。实验结果显示,通过微调稳定扩散模型SD$_{SR4G}$可以提高VISOR指标高达9个点,并且在未见过的分割中仍然有效。该方法通过更少的参数改进了最先进的方法,并避免了复杂的架构。

相关推荐 去reddit讨论