小红花·文摘

该研究提出了一种新方法，通过结合U-Nets和扩散变换器的优势，从单个图像生成高质量、时空连贯的人类视频。注入人类身份、相机参数和时间信号，实现了精确的条件设定。该方法能够合成逼真、连贯和自由观察的人类视频，为虚拟现实和动画等领域的应用提供了新的可能性。