小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
从”对口型”到”数字人” 音频驱动虚拟人合成技术全景解析

自2021年以来,音频驱动虚拟人合成技术迅速发展,结合静态图像与音频生成同步视频,广泛应用于直播和客服等领域。主要技术挑战包括身份保持与音视频同步。近年来,扩散模型成为主流,推动了该领域的进步。关键研究包括Hallo2、Let Them Talk和OmniHuman-1,分别聚焦于长视频生成、多人人物对话及全身数字人模型,展现出显著的技术突破与商业潜力。

从”对口型”到”数字人” 音频驱动虚拟人合成技术全景解析

实时互动网
实时互动网 · 2026-05-25T06:33:54Z
入选NeurIPS 2025,智源/北大/北邮提出多流控制视频生成框架,基于音频解混实现精确音画同步

音频驱动的视频生成已成为多模态生成的重要方向。北京智源等机构提出了一种音画同步框架,通过将音频拆分为语音、音效和音乐,提升了视频生成的时序控制和音画对齐精度。实验结果显示,该方法在视频质量和同步性上显著提升,验证了音频解混与多流控制的有效性。

入选NeurIPS 2025,智源/北大/北邮提出多流控制视频生成框架,基于音频解混实现精确音画同步

HyperAI超神经
HyperAI超神经 · 2025-12-23T06:30:59Z
在线教程丨影视级视频生成模型Wan2.2-S2V-14B,仅需静态图和音频可生成分钟级数字人视频

HyperAI超神经推出了阿里巴巴通义万相实验室的音频驱动视频生成模型Wan2.2-S2V-14B。该模型仅需一张图片和一段音频即可生成高质量数字人视频,并支持多种图片类型。研究团队通过优化训练数据集,显著提升了生成内容的真实性。用户可在HyperAI官网体验该模型。

在线教程丨影视级视频生成模型Wan2.2-S2V-14B,仅需静态图和音频可生成分钟级数字人视频

HyperAI超神经
HyperAI超神经 · 2025-09-24T07:30:11Z
技术洞察:音频驱动口型生成技术解析 | 咪咕灯塔智库

在AIGC时代,音频驱动口型生成技术通过算法将音频信号转化为唇形动画,提升了数字人和影视动画的沉浸感,广泛应用于实时交互、游戏角色动态演绎及影视配音,重塑数字内容制作体验。

技术洞察:音频驱动口型生成技术解析 | 咪咕灯塔智库

实时互动网
实时互动网 · 2025-08-19T03:56:20Z

本研究提出AsynFusion框架,解决全身音频驱动头像生成中面部表情与手势协调不足的问题。该方法通过扩散变压器实现表情与手势的和谐合成,实验结果表明其在实时同步全身动画生成方面优于现有技术。

AsynFusion: An Asynchronous Latent Consistency Model for Decoupled Whole-Body Audio-Driven Avatars

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z
Soul App实时人像视频生成研究成果获国际学术顶会CVPR2025录用

Soul App的技术论文《基于自回归动作生成的实时流式音频驱动人像动画系统》在CVPR 2025会议上被接收,展示了在实时音频驱动人像动画方面的创新,提出了提高视频生成效率和自然度的方法,标志着Soul在多模态AI能力上的进展。

Soul App实时人像视频生成研究成果获国际学术顶会CVPR2025录用

机器之心
机器之心 · 2025-03-21T09:14:35Z

本研究提出了PC-Talk框架,旨在改善音频驱动的口语面孔生成中的面部动画控制,尤其是在唇音同步和情感表达方面。实验结果表明,该方法在HDTF和MEAD数据集上表现优异。

PC-Talk: Precise Facial Animation Control in Audio-Driven Talking Face Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z

本研究提出ExGes框架,优化音频驱动的人类手势合成,解决了粗糙性和表现性不足的问题。通过构建手势库和应用对比学习等技术,显著提升了生成手势的自然性和语义相关性,实验结果表明其优于现有方法。

ExGes:基于音频驱动的表现性人类运动检索与调制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-09T00:00:00Z
真假难辨!阿里升级AI人像视频生成,表情动作直逼专业水准

EMO2是阿里巴巴通义实验室提出的音频驱动高表现力人像AI视频生成技术,通过音频生成手部动作,再利用视频模型生成面部表情和身体动作,效果显著优于传统方法,能够生成自然流畅的人物视频。

真假难辨!阿里升级AI人像视频生成,表情动作直逼专业水准

机器之心
机器之心 · 2025-02-16T12:34:58Z

本研究提出FADA方法,解决音频驱动对话头像的慢推理速度问题。通过混合监督损失和多CFG蒸馏,FADA显著提高了模型的稳健性和推理速度,速度提升可达4.17-12.5倍,生成效果媲美最新扩散模型。

FADA: Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-22T00:00:00Z

本研究提出了GoHD框架,旨在提升音频驱动的谈话头像生成中的肖像多样性和音频与面部运动的关系。该框架结合三大模块,显著提高了肖像视频的真实感和可控性,实验结果表明其表现优异。

GoHD: Gaze-Oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expressions

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z

本研究提出了一种音频驱动的头部生成框架INFP,旨在解决双人对话中社交智能体动态形象生成的难题。实验结果表明,该方法在互动场景中表现优越。

INFP: Audio-Based Head Generation for Interactive Dyadic Conversations

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

本研究提出了JoyVASA框架,解决了音频驱动肖像动画模型在训练效率和视频时长上的限制。通过解耦动态面部表情与静态3D表示,JoyVASA能够生成更长的视频并实现动物面部动画,实验结果表明其在动画质量和保真度上具有显著优势。

JoyVASA: Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation for Portrait and Animal Image Animation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z

本研究利用CNN和GAN模型生成逼真的3D虚拟人物,涵盖肢体手势、面部表情和语音。提出了多模态交互界面的必要性,并开发了Ada-TTA和VLOGGER方法,以提升音频驱动视频生成的质量和多样性。此外,研究创建了HIMO数据集,解决多物体交互的挑战,并提出LBLM-AVA模型,显著提高手势生成的准确性和真实感。

Allo-AVA:一种大规模多模态对话AI数据集用于分视角虚拟化身手势动画

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z

本研究提出了多种视频生成模型,优化了时序一致性和音频驱动效果。通过新方法如EMO和Loopy,提升了说话和肖像视频的真实感与表现力,解决了传统技术的局限性,并展示了高效的动态视频风格化和编辑能力,推动了视频生成技术的发展。

Hallo2:长时长和高分辨率音频驱动的人物图像动画

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本研究提出了DreamHead框架,旨在改善音频驱动的说话头合成中音频线索与面部表情的时空对应关系。通过预测面部特征点,DreamHead能够有效生成高保真度的说话头视频,具有重要的应用潜力。

DreamHead: Learning Spatial-Temporal Correspondence in Audio-Driven Talking Head Synthesis via Hierarchical Diffusion

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-16T00:00:00Z

本研究提出了一种新的音频驱动的深度强化学习框架,用于导航和头部方向控制。通过深度Q学习算法开发自主代理,使其能够根据立体声录音朝向说话者。未来需要改善训练策略以增强在多样化环境中的鲁棒性。

基于音频的强化学习在自然环境中的头部方向控制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-16T00:00:00Z

字节AI和浙大合作研发的Loopy项目能通过图像和音频生成自然的视频,具有良好的生成效果和视觉一致性。Loopy由ReferenceNet、DenoisingNet、Apperance和Audio四部分构成,能处理各种场景和细节。此前还有类似的项目CyberHost,但CyberHost是一个音频驱动的人类动画模型。

字节AI版小李子一开口:黄风岭,八百里

量子位
量子位 · 2024-09-13T14:48:54Z

本研究提出了多个基于扩散模型的框架,用于生成高保真的音频驱动手势和对话头像视频。ANGIE框架捕捉手势模式,DiffGesture确保音频与手势的时间一致性,DiffPoseTalk辅助生成面部动画,FreeTalker生成语音驱动的手势,DiffSHEG同步表情与手势,ConvoFusion调节多模态手势。MoDiTalker解决对话头像生成中的质量问题,运动解耦框架和PoseLatent Diffusion模型显著提升了生成效果。

DiffTED:利用扩散生成的音频驱动TED演讲视频生成方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-11T00:00:00Z

本文介绍了一种新颖的音频驱动面部动画生成方法,能够生成高质量的说话视频,确保唇语同步和丰富的面部表情。该方法通过多阶段框架和跨模态注意力技术,在生成质量和计算效率上优于现有技术,适用于实际应用。实验结果表明,其在个性化说话风格和视觉细节保持方面表现出色。

PersonaTalk:在视觉配音中突出你的角色

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-09T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码