DiffuVST: 用全局历史引导的去噪模型叙述虚构场景
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了一种名为DiffuVST的新型扩散系统,用于生成多样化的视觉场景。DiffuVST通过单个条件去噪过程生成高度多样的视觉描述,具有双向文本历史指导和多模态适配器模块,提高了句间连贯性和图像与文本的准确性。实验证明DiffuVST优于传统自回归模型,具有更好的文本质量和推理速度。
🎯
关键要点
- DiffuVST是一种新型扩散系统,用于生成多样化的视觉场景。
- 该系统通过单个条件去噪过程生成高度多样的视觉描述。
- DiffuVST具有双向文本历史指导和多模态适配器模块,提升句间连贯性和图像与文本的准确性。
- 实验证明DiffuVST在文本质量和推理速度上优于传统自回归模型。
- 视觉叙事(VST)任务在真实世界以外越来越受欢迎,DiffuVST为其提供了更高效的生成建模。
➡️