小红花·文摘

我们提出了一种零样本方法，通过预训练的文本到图像扩散模型实现一致的文本到动画角色合成。利用现有的基于文本的动作扩散模型生成多样的动作，并使用其指导文本到图像模型，成功生成了具有不同动作和风格的时序一致的视频，优于现有的零样本文本到视频方法。