小红花·文摘

本研究提出了一种新的视频扩散模型，通过单眼深度估计控制视频的结构和内容保真度，实现高分辨率的文本到视频生成。用户可以独立指定对象运动和相机移动，提升视频质量和一致性。实验结果表明，该方法在视频深度估计和多目标合成方面表现优越，具有广泛的应用潜力。