MotiF:通过运动焦点损失使文本在图像动画中发挥作用

📝

内容提要

本研究解决了文本引导的图像动画(TI2V)生成中,生成视频与文本提示对齐不足的问题,特别是在涉及运动时。提出的MotiF方法通过引导模型学习更多运动区域,提高了文本对齐和运动生成的效果,并创建了TI2V Bench数据集以进行评估。实验结果显示,MotiF比九个开放模型表现更佳,平均偏好达到72%。

➡️

继续阅读