小红花·文摘

本文介绍了一种名为DiffuVST的新型扩散系统，用于生成多样化的视觉场景。DiffuVST通过单个条件去噪过程生成高度多样的视觉描述，具有双向文本历史指导和多模态适配器模块，提高了句间连贯性和图像与文本的准确性。实验证明DiffuVST优于传统自回归模型，具有更好的文本质量和推理速度。