DiffuVST: 用全局历史引导的去噪模型叙述虚构场景

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种名为DiffuVST的新型扩散系统,用于生成多样化的视觉场景。DiffuVST通过单个条件去噪过程生成高度多样的视觉描述,具有双向文本历史指导和多模态适配器模块,提高了句间连贯性和图像与文本的准确性。实验证明DiffuVST优于传统自回归模型,具有更好的文本质量和推理速度。

🎯

关键要点

  • DiffuVST是一种新型扩散系统,用于生成多样化的视觉场景。
  • 该系统通过单个条件去噪过程生成高度多样的视觉描述。
  • DiffuVST具有双向文本历史指导和多模态适配器模块,提升句间连贯性和图像与文本的准确性。
  • 实验证明DiffuVST在文本质量和推理速度上优于传统自回归模型。
  • 视觉叙事(VST)任务在真实世界以外越来越受欢迎,DiffuVST为其提供了更高效的生成建模。
➡️

继续阅读