面向对象的运动:文本驱动的图像到视频生成的 TIV-Diffusion
📝
内容提要
本研究解决了文本驱动的图像到视频生成(TI2V)中的两个主要挑战:如何识别目标对象并确保运动轨迹与文本描述之间的一致性,以及如何提高生成视频的主观质量。通过提出基于扩散的新框架 TIV-Diffusion,采用对象中心的文本-视觉对齐,我们实现了对文本描述的运动进行精确控制,显著提升了视频生成的质量,达到业界领先水平。
➡️