本文提出了一种新型动画上色模型ColorAnime,基于视频扩散模型,能够根据参考图像自动将草图序列转化为高质量彩色动画。该模型通过高低层次颜色提取器实现颜色一致性和细粒度控制,克服了现有方法在大幅运动场景中的不足,实验结果表明其在颜色准确性和视频质量方面表现优异。
本研究提出VideoPanda方法,解决虚拟现实中高分辨率全景视频生成的挑战。该方法通过多视角注意力层增强视频扩散模型,实现基于文本或单视角视频生成一致的多视角视频,生成的360°全景图像更真实连贯。
清华大学研究团队提出了VideoScene,一种专注于3D场景生成的“一步式”视频扩散模型。该模型通过3D跃迁流蒸馏策略加速推理,并结合动态降噪策略,提高生成效率和质量。实验结果表明,VideoScene在速度和质量上均优于现有模型,具有广泛的应用潜力。
本研究提出了一种新颖的两阶段图像到视频生成框架,旨在解决视频扩散模型在生成物理可行视频时缺乏物理理解的问题。该框架有效捕捉物理运动,为视频生成领域带来新视角和改进。
本研究提出了一种视频扩散模型,解决了3D重建与生成之间的条件缺口,提升了生成模型的训练效果,并验证了其在稀疏视图和遮挡输入下的视图合成有效性。
本研究提出了多视角视频扩散模型SV4D 2.0,旨在解决动态3D资产生成中的时空一致性问题。通过改进网络架构和训练策略,SV4D 2.0在遮挡和大运动情况下表现更为稳健,显著提升了视频的细节清晰度和时空一致性。
本研究提出了一种新方法Zero-1-to-A,旨在解决动画头像生成中的数据量过大问题。通过视频扩散模型构建一致性数据集,实现4D头像重建,优化头像质量。实验结果表明,该方法在真实感、动画质量和渲染速度上优于现有技术。
本研究提出了一种可扩展的开源视频基础模型(VFM)训练流程,旨在解决大规模、高质量视频模型训练中的挑战。该流程加速了视频数据集的策划,支持多模态数据加载,并实现了视频扩散模型的并行训练和推理,显著提升了训练效率和推理性能。
复旦大学团队在《ACM Computing Surveys》上发表了一篇关于视频扩散模型的综述,涵盖300多篇文献,探讨了视频生成、编辑与理解的研究进展与挑战,并提出了未来的研究方向,如数据集构建、物理真实性和长视频生成等。
SkyReels-A1是一种新的视频扩散模型,能够将静态肖像照片转化为自然的面部动画。该模型采用变换器架构和运动控制技术,生成高质量且保留身份特征的动态视频。
多伦多大学、Snap和UCLA团队推出的Wonderland模型能够从单张图像生成高质量的3D场景,并控制摄像轨迹。该技术结合了视频扩散模型和3D重建模型,显著提升了生成效率和视觉质量,适用于建筑设计和虚拟现实等领域。
本研究提出了一种新的视频扩散模型压缩方法,通过去除冗余浅层区块,提升推理速度,同时保持生成视频的质量和一致性。实验结果表明,该方法显著加快了文本和图像生成视频的推理时间。
本研究提出了一种新方法,通过潜在物理现象知识训练视频扩散模型,解决了现有模型在捕捉物理知识方面的不足,展现出显著的实际应用潜力。
本研究提出了REM框架,通过视频扩散模型学习视觉语言表示,以解决视频中的概念分割不足问题。实验结果表明,REM在特定领域表现优异,并在非特定领域提高了区域相似度,展示了预训练的强大能力。
我们提出了一种无需训练的方法 CamTrol,可以通过图像或文本提示生成具有摄像机运动控制的视频。通过重新排列噪点像素,实现了摄像机运动的控制,能够生成动态内容的三维旋转视频。
该论文提出了一种视觉-运动策略学习框架,通过人类示范对视频扩散模型进行微调,使用合成的执行结果来控制机器人,弥合人手和机器人操作者之间的具身隔阂。通过四个任务的评估,证明了利用互联网规模的生成模型可以实现更高程度的泛化。
本文提出了一种无需训练的解决方案,用于控制现有视频扩散模型的摄像机运动。该方法不需要有监督微调或自监督训练,只需一个图像或文本提示作为输入即可生成可控摄像机的视频。实验证明了该方法在控制生成视频的摄像机运动方面的鲁棒性。
该论文提出了一种视觉-运动策略学习框架,通过人类示范对视频扩散模型进行微调,实现人机操作者之间的隔阂弥合。通过生成新颖场景的图像作为条件的任务执行示例,并直接使用合成的执行结果来控制机器人,实现更高程度的泛化。
本文提出了一种自回归、端到端优化的视频扩散模型,用于生成高质量的视频。同时,提出了可扩展的连续排名概率得分(CRPS)方法,用于评估视频的概率预测能力。该方法在多个数据集上比先前方法有着显著的提高。
完成下面两步后,将自动完成登录并继续当前操作。