本研究提出了一种视觉引导解码方法,利用大型语言模型生成文本提示,以指导图像生成模型。该方法通过CLIP得分确保提示与用户视觉概念一致,提升了提示生成的可解释性和灵活性。实验结果表明,该方法在生成可理解且相关的提示方面优于现有技术,增强了文本到图像模型的互动可控性。
完成下面两步后,将自动完成登录并继续当前操作。