TextCenGen:面向文本到图像生成的注意力导向的文本中心背景适应
原文中文,约400字,阅读约需1分钟。发表于: 。TextCenGen 是一种新的文本图像生成方法,采用了力导向注意力引导模型,以生成更具和谐感的文字图像布局。在图形设计方面的实验结果显示,TextCenGen 相较于传统方法在布局上更出色,同时在特定文本位置的数据集上也显著提高了 Text-to-image 模型的结果。
本文提出了一种基于对物体的关注的生成对抗网络,用于文本到图像合成。网络生成器注重文本描述中的相关单词和预生成的语义布局,以合成显著物体。同时,提出了一种快速区域卷积神经网络技术,用于判断生成的物体与文本描述和预生成布局是否匹配。该网络在大规模COCO基准测试中表现出色,提高了Inception分数并降低了FID分数。通过分析机制和可视化注意层,展示了本模型如何高质量地生成复杂场景。