本研究提出了一种新的视频扩散模型,通过单眼深度估计控制视频的结构和内容保真度,实现高分辨率的文本到视频生成。用户可以独立指定对象运动和相机移动,提升视频质量和一致性。实验结果表明,该方法在视频深度估计和多目标合成方面表现优越,具有广泛的应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。