现有文本到图像系统未能准确反映物体间的空间关系。为此,提出SR4G数据集,包含990万个图像标题对,旨在提升模型性能。微调稳定扩散模型后,VISOR指标提升9点,且在未见过的对象上依然有效。数据集和代码将公开发布。
完成下面两步后,将自动完成登录并继续当前操作。