跨模态语境扩散模型的文本导向视觉生成与编辑

原文约400字，阅读约需1分钟。发表于：。

我们提出了一种新颖而通用的上下文扩散模型 (ContextDiff)，通过将文本条件与视觉样本之间的交互和对齐引入前向和后向过程中，将上下文传播到这两个过程的所有时间步，从而促进跨模态条件建模，在文本到图像生成和文本到视频编辑的两个挑战性任务中，我们的 ContextDiff 实现了新的最先进性能，通过定量和定性评估明显增强了文本条件与生成样本之间的语义对齐。

Context Diffusion是一种基于扩散的框架，用于学习图像生成模型。该框架能够处理生成图像质量和保真度降低的问题，并适用于少量示例的情况。实验证明，Context Diffusion在领域内和领域外的任务中表现出色，提高了图像质量和保真度。