小红花·文摘

AnimeColor：基于DiT的动漫视频上色 | ACM MM 2025

实时互动网 ·

本研究提出VideoPanda方法，解决虚拟现实中高分辨率全景视频生成的挑战。该方法通过多视角注意力层增强视频扩散模型，实现基于文本或单视角视频生成一致的多视角视频，生成的360°全景图像更真实连贯。

VideoPanda: Multi-View Attention-Based Video Panorama Diffusion

BriefGPT - AI 论文速递 ·

CVPR 2025 HighLight｜打通视频到3D的最后一公里，清华团队推出一键式视频扩散模型VideoScene

机器之心 ·

本研究提出了一种新颖的两阶段图像到视频生成框架，旨在解决视频扩散模型在生成物理可行视频时缺乏物理理解的问题。该框架有效捕捉物理运动，为视频生成领域带来新视角和改进。

Towards Physically Plausible Video Generation via Visual Language Model Planning

BriefGPT - AI 论文速递 ·

本研究提出了一种视频扩散模型，解决了3D重建与生成之间的条件缺口，提升了生成模型的训练效果，并验证了其在稀疏视图和遮挡输入下的视图合成有效性。

GenFusion: Bridging the Gap Between Reconstruction and Generation through Video

BriefGPT - AI 论文速递 ·

本研究提出了多视角视频扩散模型SV4D 2.0，旨在解决动态3D资产生成中的时空一致性问题。通过改进网络架构和训练策略，SV4D 2.0在遮挡和大运动情况下表现更为稳健，显著提升了视频的细节清晰度和时空一致性。

SV4D 2.0：增强多视角视频扩散中的时空一致性以获得高质量的4D生成

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法Zero-1-to-A，旨在解决动画头像生成中的数据量过大问题。通过视频扩散模型构建一致性数据集，实现4D头像重建，优化头像质量。实验结果表明，该方法在真实感、动画质量和渲染速度上优于现有技术。

零-1到-A：使用视频扩散实现零样本单图像动画头像生成

BriefGPT - AI 论文速递 ·

本研究提出了一种可扩展的开源视频基础模型（VFM）训练流程，旨在解决大规模、高质量视频模型训练中的挑战。该流程加速了视频数据集的策划，支持多模态数据加载，并实现了视频扩散模型的并行训练和推理，显著提升了训练效率和推理性能。

Training Video Foundation Models with NVIDIA NeMo

BriefGPT - AI 论文速递 ·

复旦大学团队在《ACM Computing Surveys》上发表了一篇关于视频扩散模型的综述，涵盖300多篇文献，探讨了视频生成、编辑与理解的研究进展与挑战，并提出了未来的研究方向，如数据集构建、物理真实性和长视频生成等。

复旦视频扩散模型综述：覆盖300+文献，探讨近期研究趋势与突破，Github揽星2k+

量子位 ·

人工智能使静态照片生动化，展现自然面部动画的开创性研究

DEV Community ·

多伦多大学、Snap和UCLA团队推出的Wonderland模型能够从单张图像生成高质量的3D场景，并控制摄像轨迹。该技术结合了视频扩散模型和3D重建模型，显著提升了生成效率和视觉质量，适用于建筑设计和虚拟现实等领域。

一张图生成高质量广视野3D场景，还可控制摄像轨迹

量子位 ·

本研究提出了一种新的视频扩散模型压缩方法，通过去除冗余浅层区块，提升推理速度，同时保持生成视频的质量和一致性。实验结果表明，该方法显著加快了文本和图像生成视频的推理时间。

视频扩散模型的个体内容与运动动态保留修剪

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过潜在物理现象知识训练视频扩散模型，解决了现有模型在捕捉物理知识方面的不足，展现出显著的实际应用潜力。

Teaching Video Diffusion Model with Latent Physical Phenomenon Knowledge

BriefGPT - AI 论文速递 ·

本研究提出了REM框架，通过视频扩散模型学习视觉语言表示，以解决视频中的概念分割不足问题。实验结果表明，REM在特定领域表现优异，并在非特定领域提高了区域相似度，展示了预训练的强大能力。

全面参照：迈向我们在视频中能描述的所有事物的分割

BriefGPT - AI 论文速递 ·

我们提出了一种无需训练的方法 CamTrol，可以通过图像或文本提示生成具有摄像机运动控制的视频。通过重新排列噪点像素，实现了摄像机运动的控制，能够生成动态内容的三维旋转视频。

提高视频扩散变换器的相机运动控制

BriefGPT - AI 论文速递 ·

该论文提出了一种视觉-运动策略学习框架，通过人类示范对视频扩散模型进行微调，使用合成的执行结果来控制机器人，弥合人手和机器人操作者之间的具身隔阂。通过四个任务的评估，证明了利用互联网规模的生成模型可以实现更高程度的泛化。

为物体操作的生成世界模型中表示位置性信息

BriefGPT - AI 论文速递 ·

本文提出了一种无需训练的解决方案，用于控制现有视频扩散模型的摄像机运动。该方法不需要有监督微调或自监督训练，只需一个图像或文本提示作为输入即可生成可控摄像机的视频。实验证明了该方法在控制生成视频的摄像机运动方面的鲁棒性。

ControlNeXt：强大且高效的图像和视频生成控制

BriefGPT - AI 论文速递 ·

该论文提出了一种视觉-运动策略学习框架，通过人类示范对视频扩散模型进行微调，实现人机操作者之间的隔阂弥合。通过生成新颖场景的图像作为条件的任务执行示例，并直接使用合成的执行结果来控制机器人，实现更高程度的泛化。

PianoMime：从互联网示范中学习通用的、灵巧的钢琴演奏耠

BriefGPT - AI 论文速递 ·

FreeTraj: 视频扩散模型中的无调节轨迹控制

BriefGPT - AI 论文速递 ·

本文提出了一种自回归、端到端优化的视频扩散模型，用于生成高质量的视频。同时，提出了可扩展的连续排名概率得分（CRPS）方法，用于评估视频的概率预测能力。该方法在多个数据集上比先前方法有着显著的提高。

DiffusionVMR：视频时刻检索的扩散模型

BriefGPT - AI 论文速递 ·