小红花·文摘

清华与腾讯联合研发的Scene Splatter模型基于视频扩散技术，从单张图像生成高保真3D场景，解决了几何扭曲和一致性问题。该模型通过动量引导生成多视角视频，显著提升三维场景重建效果。

视频扩散模型新突破！清华腾讯联合实现高保真3D生成，告别多视图依赖

量子位 ·

合成数据助力视频生成提速8.5倍，上海AI Lab开源AccVideo

机器之心 ·

当前人物图像动画扩散模型在身份一致性方面存在挑战。本文提出的StableAnimator是首个端到端身份保持的视频扩散框架，能够根据参考图像和姿态合成高质量视频，实验结果表明其在身份保持和动画质量上表现优异。

稳定动画师：高质量身份保护的人像动画

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，结合多模态基础模型和视频扩散技术，以提高四维动态物理场景模拟的准确性。通过图像查询识别材料类型并初始化参数，利用视频扩散和可微分材料点方法细化材料参数，实现对真实场景动态交互的精准预测与逼真模拟。

Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion in 4D Dynamic Physical Scene Simulation

BriefGPT - AI 论文速递 ·

本研究提出了MotionCom，一种基于大语言模型和视频扩散先验的自动化运动感知图像合成方法。该方法解决了传统图像合成中物体位置手动规划和运动真实感不足的问题，实现了目标物体的无缝集成，并在规划效率和运动表现上优于现有方法。

MotionCom: Automated Motion-Aware Image Composition Based on Large Language Models and Video Diffusion Priors

BriefGPT - AI 论文速递 ·

该研究提出了一种生成城市风景全景长序列视图的方法，通过动态合成大规模场景实现。研究借鉴了视频扩散的研究成果，在自回归框架的基础上进行建模，并引入了一种新的时间插补方法。

本研究介绍了CameraCtrl模型，通过精确控制相机姿态提升T2V模型的可控性和泛化性。结合三维相机运动和多模态变压器，能够有效生成视频。提出的协作视频扩散（CVD）框架通过跨视频同步模块提高了不同相机轨迹下视频的一致性。此外，CoMo模型在动作生成和编辑方面表现优异，VideoComposer模型实现了合成视频的条件控制。研究还提出了Direct-a-Video和COMD模型，增强了用户对对象和相机运动的控制能力。

CamCo：可控相机的三维一致的图像到视频生成

BriefGPT - AI 论文速递 ·

视频扩散模型新突破！清华腾讯联合实现高保真3D生成，告别多视图依赖

合成数据助力视频生成提速8.5倍，上海AI Lab开源AccVideo

稳定动画师：高质量身份保护的人像动画

Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion in 4D Dynamic Physical Scene Simulation

MotionCom: Automated Motion-Aware Image Composition Based on Large Language Models and Video Diffusion Priors

街景：基于自回归视频扩散的大规模一致街景生成

CamCo：可控相机的三维一致的图像到视频生成