清华与腾讯联合研发的Scene Splatter模型基于视频扩散技术,从单张图像生成高保真3D场景,解决了几何扭曲和一致性问题。该模型通过动量引导生成多视角视频,显著提升三维场景重建效果。
上海AI Lab提出的AccVideo方法通过合成数据集加速视频扩散模型,生成速度提升8.5倍,显著提高训练效率。该方法避免无效数据点,采用轨迹指导和对抗训练策略,能在较少推理步骤下生成高质量视频。
当前人物图像动画扩散模型在身份一致性方面存在挑战。本文提出的StableAnimator是首个端到端身份保持的视频扩散框架,能够根据参考图像和姿态合成高质量视频,实验结果表明其在身份保持和动画质量上表现优异。
本研究提出了一种新方法,结合多模态基础模型与视频扩散技术,增强四维动态场景模拟,精准捕捉复杂材料属性及物体相互作用。
该研究提出了一种名为MCM的视频扩散提炼方法,通过分离运动和外观学习来改善视频质量。实验证明,MCM能够提高视频扩散模型的帧质量,生成具有高美感得分或特定风格的帧。
该研究提出了一种生成城市风景全景长序列视图的方法,通过动态合成大规模场景实现。研究借鉴了视频扩散的研究成果,在自回归框架的基础上进行建模,并引入了一种新的时间插补方法。
完成下面两步后,将自动完成登录并继续当前操作。