小红花·文摘

本研究提出了Cosmos-Transfer1模型，解决了现有世界生成模型在空间控制输入方面的局限。该模型能够灵活适应不同输入权重，实现可控的世界生成，具有广泛应用潜力，特别是在物理人工智能和自动驾驶领域。

Cosmos-Transfer1：具有自适应多模态控制的条件世界生成

BriefGPT - AI 论文速递 ·

本文研究了文本到图像模型，通过细节导向的条件控制实现了更精细的空间控制。提出了LogicalDefender方法，将图像与人类总结的逻辑知识结合，提取广泛适用的逻辑知识。实验证明，该模型在逻辑性能方面表现更好，并可应用于其他场景。

逻辑守护者：发现、提取和利用常识知识

BriefGPT - AI 论文速递 ·

Desigen是一种自动模板创建流程，通过约束背景生成过程中的显著性分布，提供更强的空间控制。使用基于Transformer的自回归生成器合成布局，并通过迭代推理策略调整背景和布局。实验证明，该流程生成的模板质量与人类设计师相媲美。还展示了演示文稿生成的应用。

Desigen: 可控设计模板生成的流程

BriefGPT - AI 论文速递 ·

本文介绍了一种使用文本生成图像的方法，通过结合自然语言界面和空间控制，提出了一种零-shot分割指导方法ZestGuide，可以提高图像质量。实验结果表明，ZestGuide在COCO数据集上的结果更好。

区域：零样本指导下的局部编辑

BriefGPT - AI 论文速递 ·

本文介绍了一种名为ZestGuide的方法，通过结合自然语言界面和空间控制，解决了与图像画布上特定位置对象相关的文本生成图像的问题。实验结果表明，ZestGuide在精准对齐输入分割的情况下，提高了图像质量，并且在COCO数据集上的表现优于Paint with Words。

针对空间控制文本到图像生成的遮蔽注意力扩散引导

BriefGPT - AI 论文速递 ·

本文介绍了一种使用文本生成图像的方法，通过结合自然语言界面和空间控制，解决了与图像画布上特定位置对象相关的文本生成图像的问题。提出了一种零-shot分割指导方法ZestGuide，可以将预先训练的文本插入到图像扩散模型中。实验结果表明，在精准对齐所需的输入分割的情况下，与使用相应分割进行训练的组件相比，提高了图像质量。在COCO数据集上，结果比Paint with Words更好。

五美元模型：从句子嵌入生成游戏地图和角色

BriefGPT - AI 论文速递 ·