小红花·文摘

利用大型语言模型 (LLM) 从文本提示中提取关键组件，包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。通过两个阶段的操作，将这些组件布局到图像生成模型中。生成的全局场景经过迭代细化，以确保与文本描述的一致性。经用户研究验证，我们的方法在从错综复杂的文本输入中生成连贯详细场景方面比传统扩散模型更好。

掌握文本到图像扩散：多模态 LLM 的重新字幕、规划和生成

BriefGPT - AI 论文速递 ·

利用大型语言模型 (LLM) 从文本提示中提取关键组件，包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。通过两个阶段的操作，将这些组件布局到图像生成模型中，初步生成全局场景后，使用迭代细化方案对内容进行评估和修正，以确保与文本描述的一致性。经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。

VideoDrafter: 内容一致的多场景视频生成与 LLM

BriefGPT - AI 论文速递 ·

利用大型语言模型 (LLM) 从文本提示中提取关键组件，包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。通过两个阶段的操作，将这些组件布局到图像生成模型中。使用迭代细化方案对内容进行评估和修正，以确保与文本描述的一致性。经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。

具有 LLM 增强提示和多源监督的知识感知艺术品图像合成

BriefGPT - AI 论文速递 ·

自校正的 LLM 控制扩散模型

BriefGPT - AI 论文速递 ·