RelationBooth:面向关系感知的定制对象生成
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
现有文本到图像系统未能准确反映物体间的空间关系。为此,提出SR4G数据集,包含990万个图像标题对,旨在提升模型性能。微调稳定扩散模型后,VISOR指标提升9点,且在未见过的对象上依然有效。数据集和代码将公开发布。
🎯
关键要点
- 现有文本到图像系统不能准确反映物体之间的显式空间关系。
- 提出SR4G数据集,包含990万个图像标题对,旨在提升模型性能。
- SR4G数据集包含超过6万个用于评估的标题,并提供'未见过'的分割以测试泛化性能。
- 微调稳定扩散模型后,VISOR指标提升高达9个点,且在未见过的对象上依然有效。
- SD$_{SR4G}$通过更少的参数改进了最先进的方法,避免了复杂的架构。
- 数据集和代码将公开发布。
➡️