DiffuVST: 用全局历史引导的去噪模型叙述虚构场景
原文中文,约400字,阅读约需1分钟。发表于: 。最近图像与视频生成方法的进步,特别是基于人工智能的图像合成,已经导致了大量抽象和多样化的视觉场景的产生。因此,视觉叙事(Visual Storytelling,VST)成为一个更具挑战性的任务,并且在真实世界以外越来越受欢迎。本文提出了一种名为 DiffuVST 的新颖扩散系统,将一系列视觉描述的生成建模为单个条件去噪过程,以此生成高度多样的叙述更高效。此外,DiffuVST...
本文介绍了一种名为DiffuVST的新型扩散系统,用于生成多样化的视觉场景。DiffuVST通过单个条件去噪过程生成高度多样的视觉描述,具有双向文本历史指导和多模态适配器模块,提高了句间连贯性和图像与文本的准确性。实验证明DiffuVST优于传统自回归模型,具有更好的文本质量和推理速度。