该研究提出了一种新方法,通过结合U-Nets和扩散变换器的优势,从单个图像生成高质量、时空连贯的人类视频。注入人类身份、相机参数和时间信号,实现了精确的条件设定。该方法能够合成逼真、连贯和自由观察的人类视频,为虚拟现实和动画等领域的应用提供了新的可能性。
完成下面两步后,将自动完成登录并继续当前操作。