京东科技开发者 ·

JoyGen：音频生成逼真的3D说话人脸视频

💡 原文中文，约4100字，阅读约需10分钟。

📝

内容提要

本文介绍了JoyGen框架，该框架通过130小时中文视频数据集解决了音频与唇部动作的同步及视觉质量问题，推动了AIGC领域的发展。

🎯

关键要点

JoyGen框架通过130小时中文视频数据集解决音频与唇部动作的同步及视觉质量问题。
JoyGen是一个音频驱动的嘴型视频编辑框架，采用两阶段方法生成说话人脸视频。
第一阶段利用3D重建模型和音频驱动的动作生成模型预测身份和表情系数。
构建了一个包含130小时高质量中文视频的数据集，确保数据质量通过严格筛选。
采用流增强变分自编码器学习音频与面部动作的映射关系。
在训练过程中使用L1损失函数，确保潜在空间和图像空间的细节捕捉。
实验结果表明，JoyGen在音频嘴型同步和视觉质量方面表现优越。
与其他方法比较，JoyGen在HDTF数据集和自收集数据集上均表现出色，FID得分最低。

❓

延伸问答

JoyGen框架的主要功能是什么？

JoyGen框架主要用于生成音频驱动的3D说话人脸视频，解决音频与唇部动作的同步及视觉质量问题。

JoyGen是如何处理音频与面部动作的关系的？

JoyGen采用流增强变分自编码器学习音频与面部动作的映射关系，通过3D重建模型和音频驱动的动作生成模型进行预测。

JoyGen使用了什么样的数据集进行训练？

JoyGen使用了一个包含130小时高质量中文视频的数据集，该数据集经过严格筛选，确保数据质量。

JoyGen在实验中表现如何？

实验结果表明，JoyGen在音频嘴型同步和视觉质量方面表现优越，FID得分最低。

JoyGen的训练过程中使用了哪些损失函数？

在训练过程中，JoyGen使用了L1损失函数，以确保潜在空间和图像空间的细节捕捉。

JoyGen与其他方法相比有什么优势？

JoyGen在HDTF数据集和自收集数据集上均表现出色，唇音同步和视觉质量均优于其他方法。

🏷️

继续阅读

Google DeepMind 发布 Gemma 4 12B：一款无需编码器的多模态模型，支持原生音频
Google DeepMind 发布了 Gemma 4 12B，这是一个无编码器的多模态模型，支持文本、图像、音频和视频处理。该模型在消费级笔记本电脑上运...
YouTube获得行业首个短视频MRC认证
YouTube连续第六年获得媒体评级委员会（MRC）的品牌安全认证，并首次将认证扩展至YouTube Shorts，成为首个获得短视频品牌安全认证的平台。...
SKAI Intelligence与首尔大学AI研究院开展合作研究
SKAI Intelligence与首尔大学AI研究院签署合作备忘录，联合研究机器人感知与抓取技术，重点包括物理AI核心视觉、多物体识别与位姿估计，以提升...
移远通信携手锐心观远、岸达科技推出国产单芯片8发8收ROS-SLAM毫米波雷达
移远通信与锐心观远、岸达科技合作推出国产单芯片8发8收ROS-SLAM毫米波雷达，突破传统技术瓶颈，显著提升机器人在恶劣环境下的感知与行走能力。该雷达性能...
微软将改进Windows 11右键菜单有可能会让用户自定义并隐藏不常用选项
微软将改进Windows 11的右键菜单，默认提供简化版，减少不常用选项。用户可以自定义菜单，以提升操作效率。
构建无服务器Kiro调度平台：用Kiro CLI + EventBridge + ECS Fargate实现定时AI任务
Kiro Job Scheduler是一个基于AWS无服务器架构的AI任务调度平台，允许用户通过Web界面配置定时AI任务。用户可以创建自定义Agent、...