基于扩散的文本到图像生成的可扩展性研究
原文中文,约400字,阅读约需1分钟。发表于: 。通过对缩放去噪网络骨干和训练集的广泛割离实验,本研究探讨了扩大规模的扩散式文本到图像(T2I)模型的特性,发现在模型扩展方面,跨向量关注的位置和数量对现有 UNet 设计的性能具有差异性,增加 Transformer...
本研究发现,扩大规模的T2I模型的性能受到跨向量关注的位置和数量的影响。增加Transformer模块对于提高对齐比更有效。训练集的质量和多样性比大小更重要,增加标题密度和多样性可以提高对齐性能和学习效率。提供了预测对齐性能的缩放函数,函数依赖于模型规模、计算和数据集大小。