CVPR 2025|复旦&微软开源StableAnimator: 首个端到端ID一致性人类视频生成，Github Star破千

机器之心 ·

CVPR 2025|复旦&微软开源StableAnimator: 首个端到端ID一致性人类视频生成，Github Star破千

💡 原文中文，约3400字，阅读约需8分钟。

📝

内容提要

复旦大学研究生开发的StableAnimator框架利用扩散模型生成高质量人像动画视频，确保身份一致性。该技术在影视、游戏和自媒体等领域具有潜力，解决了复杂动作下面部失真和视频质量下降的问题。通过创新的面部编码器和HJB优化，StableAnimator在身份一致性和视频保真度方面表现出色。

🎯

关键要点

复旦大学研究生开发的StableAnimator框架利用扩散模型生成高质量人像动画视频，确保身份一致性。
该技术在影视、游戏和自媒体等领域具有潜力，解决了复杂动作下面部失真和视频质量下降的问题。
StableAnimator通过创新的面部编码器和HJB优化，在身份一致性和视频保真度方面表现出色。
StableAnimator框架基于Stable Video Diffusion模型，采用三条并行特征提取与融合路径。
引入基于Hamilton-Jacobi-Bellman方程的面部优化方法，提升身份一致性，摆脱对外部换脸工具的依赖。
StableAnimator的核心技术包括全局内容感知面部编码器、分布感知的身份适配器和HJB方程的面部优化。
与现有方法相比，StableAnimator在身份一致性和高质量动画生成方面具有显著优势。
在TikTok和Unseen100数据集上的定量对比实验中，StableAnimator在面部质量和视频保真度方面超越所有对比模型。

❓

延伸问答

StableAnimator框架的主要功能是什么？

StableAnimator框架利用扩散模型生成高质量人像动画视频，确保身份一致性。

StableAnimator如何解决面部失真问题？

StableAnimator通过创新的面部编码器和HJB优化方法，提升身份一致性，减少面部失真。

StableAnimator在影视和游戏行业的应用潜力如何？

该技术在影视、游戏和自媒体等领域具有潜力，能够提供高效的动画制作解决方案。

StableAnimator与现有方法相比有哪些优势？

StableAnimator在身份一致性和高质量动画生成方面具有显著优势，尤其在复杂动作下表现更佳。

StableAnimator的核心技术包括哪些？

其核心技术包括全局内容感知面部编码器、分布感知的身份适配器和HJB方程的面部优化。

StableAnimator在数据集上的表现如何？

在TikTok和Unseen100数据集上，StableAnimator在面部质量和视频保真度方面超越所有对比模型。

🏷️

继续阅读

字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手
字节推出了开源视频生成与编辑框架Bernini，强调“先理解再生成”。该框架利用多模态大模型进行语义理解，并通过扩散模型实现高质量渲染，解决视频编辑中的一...
在线教程丨英伟达开源LocateAnything，3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能
NVIDIA 最近推出了视觉语言定位模型LocateAnything-3B，拥有30亿参数，支持多种视觉定位任务。其核心创新为并行框解码（PBD），显著提...
微软发布Surface RTX SPARK开发工作站利用英伟达芯片提供本地AI算力
微软推出了 Microsoft Surface RTX SPARK 开发工作站，搭载英伟达芯片，支持本地运行 AI 模型。该工作站配备 20 核心 CPU...
从任意视角探索场景：3D体积视频技术突破意味着3D流媒体可能很快成为现实
布朗大学研究人员推出了名为PackUV的3D体积视频处理方法，旨在实现可存储、流式传输的逼真3D视频。该技术通过多台摄像机拍摄场景，并利用算法重建三维空间...
App+1 | 零基础 3 分钟在线搞定产品演示视频：Mockup Studio
Mockup Studio 是一个在线工具，用户可以快速制作产品展示视频，只需拖入录屏并调整样式即可导出成品。该工具简化了视频制作流程，适合开发者和产品经...
Lumine Group 达成协议，将从 Synamedia 收购其视频网络业务
Lumine Group宣布收购Synamedia的视频网络业务，这是其第16笔企业剥离交易，旨在增强其在媒体供应链中的布局，专注于视频处理和直播流媒体。...