清华与腾讯联合研发的Scene Splatter模型基于视频扩散技术,从单张图像生成高保真3D场景,解决了几何扭曲和一致性问题。该模型通过动量引导生成多视角视频,显著提升三维场景重建效果。
上海AI Lab提出的AccVideo方法通过合成数据集加速视频扩散模型,生成速度提升8.5倍,显著提高训练效率。该方法避免无效数据点,采用轨迹指导和对抗训练策略,能在较少推理步骤下生成高质量视频。
当前人物图像动画扩散模型在身份一致性方面存在挑战。本文提出的StableAnimator是首个端到端身份保持的视频扩散框架,能够根据参考图像和姿态合成高质量视频,实验结果表明其在身份保持和动画质量上表现优异。
本研究提出了一种新方法,结合多模态基础模型和视频扩散技术,以提高四维动态物理场景模拟的准确性。通过图像查询识别材料类型并初始化参数,利用视频扩散和可微分材料点方法细化材料参数,实现对真实场景动态交互的精准预测与逼真模拟。
本研究提出了MotionCom,一种基于大语言模型和视频扩散先验的自动化运动感知图像合成方法。该方法解决了传统图像合成中物体位置手动规划和运动真实感不足的问题,实现了目标物体的无缝集成,并在规划效率和运动表现上优于现有方法。
该研究提出了一种生成城市风景全景长序列视图的方法,通过动态合成大规模场景实现。研究借鉴了视频扩散的研究成果,在自回归框架的基础上进行建模,并引入了一种新的时间插补方法。
本研究介绍了CameraCtrl模型,通过精确控制相机姿态提升T2V模型的可控性和泛化性。结合三维相机运动和多模态变压器,能够有效生成视频。提出的协作视频扩散(CVD)框架通过跨视频同步模块提高了不同相机轨迹下视频的一致性。此外,CoMo模型在动作生成和编辑方面表现优异,VideoComposer模型实现了合成视频的条件控制。研究还提出了Direct-a-Video和COMD模型,增强了用户对对象和相机运动的控制能力。
完成下面两步后,将自动完成登录并继续当前操作。