小红花·文摘

本研究提出了一种视觉引导解码方法，利用大型语言模型生成文本提示，以指导图像生成模型。该方法通过CLIP得分确保提示与用户视觉概念一致，提升了提示生成的可解释性和灵活性。实验结果表明，该方法在生成可理解且相关的提示方面优于现有技术，增强了文本到图像模型的互动可控性。