小红花·文摘

CLIP-GEN是一种自监督学习策略，用于生成通用文本图像。它利用CLIP的语言-图像先验知识，通过自编码器和自回归变换器将图像转换为文本标记，并生成连贯的图像标记。该方法在图像质量方面优于基于优化的文本到图像方法，且不影响文本与图像的匹配。