本文介绍了一种名为DiffuVST的新型扩散系统,用于生成多样化的视觉场景。DiffuVST通过单个条件去噪过程生成高度多样的视觉描述,具有双向文本历史指导和多模态适配器模块,提高了句间连贯性和图像与文本的准确性。实验证明DiffuVST优于传统自回归模型,具有更好的文本质量和推理速度。
完成下面两步后,将自动完成登录并继续当前操作。