BriefGPT - AI 论文速递 ·

SVP：风格增强生动肖像对话头扩散模型

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文介绍了多种基于语音驱动的说话人脸合成技术，包括情感视频肖像、无监督学习的3D模型、一次性风格控制和变分风格转换模型。这些方法通过提取面部特征和风格，生成高质量的动态视频人像，显著提升了合成的自然性和表现力。实验结果显示，这些新技术在视觉质量和表达丰富性方面优于现有方法。

🎯

情感视频肖像(EVP)系统通过Cross-Reconstructed Emotion Disentanglement技术提取情感面部特征，生成高质量的情感动态视频人像。
基于3D可变形模型的语音驱动说话人脸合成方法通过无监督学习从说话视频中学习特征，能够模仿任意风格并生成新的样式。
一次性风格可控的说话人脸生成框架可以从参考视频中获得说话风格，并将其应用于其他音频。
无监督的变分风格转换模型(VAST)能够从视频提示中提取面部风格，并将其转移到个性化图像渲染器上，生成更生动的说话头像。
DiffPoseTalk框架通过提取风格嵌入辅助面部动画生成，解决了3D说话脸数据不足的问题，实验结果优于现有方法。
VividTalk框架生成高视觉质量的语音驱动说话人视频，在唇语同步和面部表情方面超越了以往的最先进作品。
DreamTalk框架利用扩散模型生成具有表情的说话脸部，集成情感风格和艺术风格的控制条件。
FD2Talk面部解耦扩散模型通过多阶段解耦复杂的面部细节，显著提高了生成质量和多样性。

❓

情感视频肖像系统通过Cross-Reconstructed Emotion Disentanglement技术提取情感面部特征，并利用Target-Adaptive Face Synthesis技术生成高质量的情感动态视频人像。

无监督学习的3D模型能够从说话视频中学习特征，模仿任意风格并生成新的样式，合成效果更自然、更具表现力。

DiffPoseTalk框架通过提取风格嵌入辅助面部动画生成，解决了3D说话脸数据不足的问题，并在实验中表现优于现有方法。

VividTalk框架生成高视觉质量的语音驱动说话人视频，在唇语同步和面部表情方面超越了以往的最先进作品。

FD2Talk模型通过多阶段解耦复杂的面部细节，显著提高了生成质量和多样性，超越了以前的先进方法。

DreamTalk框架利用扩散模型生成具有表情的说话脸部，集成情感风格和艺术风格的控制条件，具有创新的声音驱动生成能力。

🏷️