该研究提出了一种多模态场景合成的扩散模型,结合文字、动作和物体,实现自然场景编辑。通过无训练框架,解决视觉指令中的一致性问题,生成高质量视频,保持时空一致性,实验结果显示优于现有方法。
完成下面两步后,将自动完成登录并继续当前操作。