MotionZero: 利用运动先验进行零样本文本到视频生成

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了一种简单但强大的基准线,通过利用预训练的I-VL模型和视频理解任务的能力进行训练。在行动识别、动作定位和文本-视频检索等任务中,实现了与现有方法相当或最新的性能。通过消融研究分析了关键组件和静态图像、视频之间的差距。