我们提出了一种零样本方法,通过预训练的文本到图像扩散模型实现一致的文本到动画角色合成。利用现有的基于文本的动作扩散模型生成多样的动作,并使用其指导文本到图像模型,成功生成了具有不同动作和风格的时序一致的视频,优于现有的零样本文本到视频方法。
完成下面两步后,将自动完成登录并继续当前操作。