VideoDrafter: 内容一致的多场景视频生成与 LLM

原文约300字，阅读约需1分钟。发表于：。

利用大型语言模型，我们提出了一种名为 VideoDrafter 的框架，用于生成内容一致的多场景视频。通过将输入提示转化为综合的多场景脚本，并结合逻辑知识的学习，VideoDrafter 能够生成高质量、内容一致的多场景视频。实验结果表明，VideoDrafter 在视觉质量、内容一致性和用户偏好方面优于目前最先进的视频生成模型。

利用大型语言模型 (LLM) 从文本提示中提取关键组件，包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。通过两个阶段的操作，将这些组件布局到图像生成模型中，初步生成全局场景后，使用迭代细化方案对内容进行评估和修正，以确保与文本描述的一致性。经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。