基于能量的CLIP进行文本到图像生成
发表于: 。该研究解决了现有联合能量模型在高分辨率真实世界数据集上应用的不足。提出的EB-CLIP融合了生成和判别目标,通过引入图像-文本联合能量函数与对抗性损失,显著提高了从文本生成图像的效果,并在组成性基准测试中表现优异,展示了其在文本到图像生成任务中的潜在影响。
该研究解决了现有联合能量模型在高分辨率真实世界数据集上应用的不足。提出的EB-CLIP融合了生成和判别目标,通过引入图像-文本联合能量函数与对抗性损失,显著提高了从文本生成图像的效果,并在组成性基准测试中表现优异,展示了其在文本到图像生成任务中的潜在影响。