小红花·文摘

从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

美团技术团队 ·

从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

实时互动网 ·

携程数字人直播实战：成本降低90%，我们如何实现规模化落地？

实时互动网 ·

FaceFusion 3.2.0 — 免费AI换脸工具初体验

obaby@mars ·

本文综述了基于深度学习的说话头部生成技术，分析了音频驱动和视频驱动方法的优缺点，并提出了新方法GeneFace和DreamHead，以提高唇形同步和视频质量，为未来研究指明方向。

DAWN：非自回归扩散框架下的动态帧头像生成

BriefGPT - AI 论文速递 ·

Talk3D是一种新型音频驱动的说话头合成框架，能够高效重建面部几何形状。该模型采用音频驱动的注意力U-Net架构，在动态面部变化生成方面表现优异，尤其在极端头部姿势下。研究还提出了GeneFace和GeneFace++，实现高保真、实时的音频-唇形同步生成。其他方法如HiDe-NeRF和SyncTalk在面部表情和姿态的真实性上也取得了显著进展。

高斯说话人：通过三维高斯喷洒合成特定说话人的形象

BriefGPT - AI 论文速递 ·