小红花·文摘

本文提出了一种新颖的上下文扩散模型（ContextDiff），通过文本与视觉样本的交互，提升了文本到图像生成和视频编辑的性能。研究还介绍了基于语义条件扩散网络的图像字幕生成模型和视频生成新方法，均在多个数据集上取得了优异表现，推动了跨模态生成技术的发展。