小红花·文摘

该研究提出了一种多模态场景合成的扩散模型，结合文字、动作和物体，实现自然场景编辑。通过无训练框架，解决视觉指令中的一致性问题，生成高质量视频，保持时空一致性，实验结果显示优于现有方法。