量子位 ·

鹅厂开源视频生成大杀器！参考图主体精准复刻，还能编辑现有视频

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

鹅厂开源的视频生成模型HunyuanCustom具备主体一致性、局部编辑和角色配音等功能，目前已上线单主体参考，其他功能将在本月发布。该模型在身份一致性和主体相似性方面表现优异，适合广告制作和视频编辑。

🎯

关键要点

鹅厂开源视频生成模型HunyuanCustom，具备主体一致性、局部编辑和角色配音等功能。
HunyuanCustom的主体一致性评分达到了开源模型的SOTA水平，适合广告制作和视频编辑。
目前已上线单主体参考功能，其他功能将在本月内发布。
HunyuanCustom支持单主体参考、多主体参考、局部编辑和角色配音四大功能。
模型在身份一致性和主体相似性方面表现优异，分别达到0.627和0.593。
HunyuanCustom基于文生视频模型HunyuanVideo，配备了相应的模块以实现多种能力。
模型采用LLaVA文本-图像交互模块和身份增强模块来增强身份一致性。
音频驱动部分使用身份解耦的AudioNet模块，确保音频条件引入不干扰人物身份一致性。
局部编辑功能通过视频条件注入策略实现，采用特征叠加方式以保留视频内容信息。
HunyuanCustom在训练过程中采用数据增强策略和Flow Matching框架来优化视频生成模型。

🔎

延伸解读

主体一致性的重要性

HunyuanCustom在主体一致性方面达到了开源模型的SOTA水平，这意味着在视频生成中，用户可以更轻松地保持角色特征的一致性。这对于广告制作和视频编辑尤为重要，因为一致性能够增强品牌形象和观众的沉浸感。

局部编辑功能的应用

HunyuanCustom的局部编辑功能允许用户对已有视频进行细节修改，例如替换特定对象。这一功能在创意制作中具有广泛应用潜力，能够帮助创作者快速调整内容，提升视频的质量和吸引力。

音频驱动的挑战

尽管HunyuanCustom支持音频驱动的角色配音功能，但目前生成的声音仍显机械。这表明在音频合成方面仍需进一步优化，以提升用户体验和视频的整体质量。

多主体参考的前景

HunyuanCustom即将上线的多主体参考功能将使得用户能够在同一视频中生成多个角色。这一功能的实现将极大丰富视频创作的可能性，尤其是在复杂场景和故事叙述中，提供更多的创作自由度。

❓

延伸问答

HunyuanCustom模型的主要功能是什么？

HunyuanCustom模型主要具备单主体参考、多主体参考、局部编辑和角色配音等功能。

HunyuanCustom在主体一致性方面的表现如何？

HunyuanCustom的主体一致性评分达到了开源模型的SOTA水平，表现优异。

HunyuanCustom如何实现局部编辑功能？

局部编辑功能通过视频条件注入策略实现，采用特征叠加方式以保留视频内容信息。

HunyuanCustom的音频驱动功能是如何工作的？

音频驱动部分使用身份解耦的AudioNet模块，确保音频条件引入不干扰人物身份一致性。

HunyuanCustom的多主体参考功能有什么应用场景？

多主体参考功能在广告制作等场景中尤其好用，可以生成包含多个角色的视频。

HunyuanCustom的训练过程中采用了哪些优化策略？

训练过程中采用了数据增强策略和Flow Matching框架来优化视频生成模型。

🏷️